frequent pattern growth algorithm data mining
Bir FP Ağacı Formunda Veritabanını Temsil Eden Sık Örüntü Büyüme Algoritması Üzerine Ayrıntılı Eğitim. FP Growth Vs Apriori Karşılaştırmasını içerir:
Apriori Algoritması önceki eğitimimizde ayrıntılı olarak açıklanmıştır. Bu eğitimde, Sık Model Büyümesi hakkında bilgi edineceğiz - FP Büyümesi, sık kullanılan öğe kümelerini madencilik yöntemidir.
youtube videolarını indirmek için ücretsiz program
Hepimizin bildiği gibi Apriori, öğe setleri oluşturmaya ve en sık kullanılan öğe setini keşfetmeye odaklanan, sık desen madenciliği için bir algoritmadır. Veritabanındaki öğe setinin boyutunu büyük ölçüde azaltır, ancak Apriori'nin de kendi eksiklikleri vardır.
Bizimle okuyun Tüm Veri Madenciliği Eğitim Serileri tam bir kavram bilgisi için.
Ne öğreneceksin:
- Apriori Algoritmasının Eksiklikleri
- Sık Örüntü Büyüme Algoritması
- FP Ağacı
- Sık Örüntü Algoritma Adımları
- FP Büyüme Algoritması Örneği
- FP Büyüme Algoritmasının Avantajları
- FP Büyüme Algoritmasının Dezavantajları
- Apriori'ye karşı FP Büyümesi
- ÜSTÜN BAŞARI
- Sonuç
- Önerilen Kaynaklar
Apriori Algoritmasının Eksiklikleri
- Apriori'yi kullanmak, bir nesil aday öğe setine ihtiyaç duyar. Veritabanındaki öğe kümesi çok büyükse, bu öğe kümelerinin sayısı büyük olabilir.
- Apriori, oluşturulan her öğe setinin desteğini kontrol etmek için veritabanının birden çok taramasına ihtiyaç duyar ve bu da yüksek maliyetlere yol açar.
Bu eksiklikler, FP büyüme algoritması kullanılarak giderilebilir.
Sık Örüntü Büyüme Algoritması
Bu algoritma, Apriori yönteminde bir iyileştirmedir. Aday oluşturmaya gerek kalmadan sık bir model oluşturulur. FP büyüme algoritması, veritabanını sık desen ağacı veya FP ağacı olarak adlandırılan bir ağaç şeklinde temsil eder.
Bu ağaç yapısı, öğe kümeleri arasındaki ilişkiyi sürdürecektir. Veritabanı, bir sık kullanılan öğe kullanılarak bölünmüştür. Bu parçalanmış bölüme 'desen parçası' denir. Bu parçalı desenlerin öğe setleri analiz edilir. Böylelikle bu yöntemle, sık kullanılan öğe setlerinin aranması nispeten azaltılır.
FP Ağacı
Sık Model Ağacı, veritabanının ilk öğe setleriyle yapılan ağaç benzeri bir yapıdır. FP ağacının amacı, en sık görülen kalıbı çıkarmaktır. FP ağacının her bir düğümü, öğe kümesinin bir öğesini temsil eder.
Kök düğüm boşluğu temsil ederken, alt düğümler öğe setlerini temsil eder. Ağaç oluşturulurken düğümlerin diğer öğe kümeleri ile öğe kümeleri olan alt düğümlerle ilişkisi korunur.
Sık Örüntü Algoritma Adımları
Sık model büyütme yöntemi, aday oluşturma olmadan sık görülen modeli bulmamızı sağlar.
Sık örüntü büyütme algoritmasını kullanarak sık örüntüyü araştırmak için izlenen adımları görelim:
# 1) İlk adım, veritabanındaki öğe setlerinin oluşumlarını bulmak için veritabanını taramaktır. Bu adım, Apriori'nin ilk adımı ile aynıdır. Veritabanındaki 1 öğe setlerinin sayısına destek sayısı veya 1 öğe setinin sıklığı denir.
#iki) İkinci adım, FP ağacını oluşturmaktır. Bunun için ağacın kökünü oluşturun. Kök, null ile temsil edilir.
# 3) Bir sonraki adım, veritabanını tekrar taramak ve işlemleri incelemektir. İlk işlemi inceleyin ve içindeki kalem setini bulun. Maksimum sayıya sahip öğe kümesi en üstte alınır, sonraki öğe kümesi daha düşük sayı ile vb. Ağacın dalının, azalan sayı sırasına göre işlem öğe kümeleri ile oluşturulduğu anlamına gelir.
# 4) Veritabanındaki bir sonraki işlem incelenir. Öğe setleri, azalan sayı sırasına göre sıralanır. Bu işlemin herhangi bir öğe kümesi başka bir şubede zaten mevcutsa (örneğin 1. işlemde), bu işlem dalı kökle ortak bir öneki paylaşacaktır.
Bu, ortak öğe kümesinin bu işlemdeki başka bir öğe kümesinin yeni düğümüne bağlı olduğu anlamına gelir.
# 5) Ayrıca, işlemlerde ortaya çıktıkça kalem setinin sayısı artar. Hem ortak düğüm hem de yeni düğüm sayısı, işlemlere göre oluşturuldukça ve bağlandıkça 1 artar.
# 6) Bir sonraki adım, oluşturulan FP Ağacı'nı çıkarmaktır. Bunun için ilk olarak en alttaki düğüm, en düşük düğümlerin bağlantıları ile birlikte incelenir. En düşük düğüm, frekans örüntü uzunluğunu 1 temsil eder. Buradan FP Ağacındaki yolu çaprazlayın. Bu yol veya yollara koşullu desen tabanı denir.
Koşullu kalıp tabanı, en düşük düğüm (sonek) ile oluşan FP ağacındaki önek yollarından oluşan bir alt veritabanıdır.
# 7) Yoldaki bir dizi öğe kümesinden oluşan bir Koşullu FP Ağacı oluşturun. Eşik desteğini karşılayan öğe grupları Koşullu FP Ağacında dikkate alınır.
# 8) Koşullu FP Ağacından Sık Modeller oluşturulur.
FP Büyüme Algoritması Örneği
Destek eşiği =% 50, Güven =% 60
tablo 1
İşlem | Eşyaların listesi |
---|---|
Hafıza kullanımı | |
T1 | I1, I2, I3 |
T2 | I2, I3, I4 |
T3 | I4, I5 |
T4 | I1, I2, I4 |
T5 | I1, I2, I3, I5 |
T6 | I1, I2, I3, I4 |
Çözüm:
Destek eşiği =% 50 => 0.5 * 6 = 3 => min_sup = 3
1. Her öğenin sayısı
Tablo 2
.eps dosyası nedir
Öğe | Miktar |
---|---|
I1 | 4 |
I2 | 5 |
I3 | 4 |
I4 | 4 |
I5 | iki |
2. Öğe kümesini azalan düzende sıralayın.
tutulmada java uygulaması nasıl oluşturulur
Tablo 3
Öğe | Miktar |
---|---|
I2 | 5 |
I1 | 4 |
I3 | 4 |
I4 | 4 |
3. FP Ağacı Oluşturun
- Kök düğüm boşluğu göz önüne alındığında.
- İşlem T1: I1, I2, I3'ün ilk taraması üç öğe {I1: 1}, {I2: 1}, {I3: 1} içerir; burada I2 köke alt öğe olarak, I1 ise I2 ve I3'e bağlıdır. I1 ile bağlantılıdır.
- T2: I2, I3, I4, I2, I3 ve I4'ü içerir; burada I2 köke, I3, I2'ye ve I4, I3'e bağlıdır. Ancak bu dal, T1'de zaten kullanıldığı gibi I2 düğümünü paylaşacaktır.
- I2 sayısını 1 artırın ve I3 çocuk olarak I2'ye bağlanır, I4 çocuk olarak I3'e bağlanır. Sayı {I2: 2}, {I3: 1}, {I4: 1}.
- Ö3: I4, I5. Benzer şekilde, bir çocuk oluşturulurken I5 ile yeni bir şube I4'e bağlanır.
- Ö4: I1, I2, I4. Dizi I2, I1 ve I4 olacaktır. I2 zaten kök düğüme bağlıdır, bu nedenle 1 artırılacaktır. Benzer şekilde I1, T1'de I2'ye zaten bağlı olduğundan 1 artırılacaktır, dolayısıyla {I2: 3}, {I1: 2}, {I4: 1}.
- Ö5: I1, I2, I3, I5. Dizi I2, I1, I3 ve I5 olacaktır. Böylece {I2: 4}, {I1: 3}, {I3: 2}, {I5: 1}.
- Ö6: I1, I2, I3, I4. Sıra I2, I1, I3 ve I4 olacaktır. Böylece {I2: 5}, {I1: 4}, {I3: 3}, {I4 1}.
4. FP ağacının madenciliği aşağıda özetlenmiştir:
- En düşük düğüm öğesi I5, minimum destek sayısına sahip olmadığı için dikkate alınmaz, dolayısıyla silinir.
- Bir sonraki alt düğüm I4'tür. I4, 2 dalda oluşur, {I2, I1, I3:, I41}, {I2, I3, I4: 1}. Bu nedenle, I4'ün son ek olduğu düşünülürse, önek yolları {I2, I1, I3: 1}, {I2, I3: 1} olacaktır. Bu koşullu örüntü temelini oluşturur.
- Koşullu model tabanı bir işlem veritabanı olarak kabul edilir, bir FP ağacı oluşturulur. Bu, {I2: 2, I3: 2} içerecektir, I1 minimum destek sayısını karşılamadığı için dikkate alınmaz.
- Bu yol, tüm sık kalıp kombinasyonlarını oluşturacaktır: {I2, I4: 2}, {I3, I4: 2}, {I2, I3, I4: 2}
- I3 için, önek yolu şöyle olacaktır: {I2, I1: 3}, {I2: 1}, bu 2 düğümlü bir FP ağacı oluşturacaktır: {I2: 4, I1: 3} ve sık kalıplar üretilir: {I2 , I3: 4}, {I1: I3: 3}, {I2, I1, I3: 3}.
- I1 için, önek yolu şöyle olacaktır: {I2: 4} bu, tek bir düğümlü FP ağacı oluşturacaktır: {I2: 4} ve sık kalıplar üretilir: {I2, I1: 4}.
Öğe | Koşullu Desen Tabanı | Koşullu FP ağacı | Oluşturulan Sık Modeller |
---|---|---|---|
I4 | {I2, I1, I3: 1}, {I2, I3: 1} | {I2: 2, I3: 2} | {I2, I4: 2}, {I3, I4: 2}, {I2, I3, I4: 2} |
I3 | {I2, I1: 3}, {I2: 1} | {I2: 4, I1: 3} | {I2, I3: 4}, {I1: I3: 3}, {I2, I1, I3: 3} |
I1 | {I2: 4} | {I2: 4} | {I2, I1: 4} |
Aşağıda verilen diyagram, koşullu düğüm I3 ile ilişkili koşullu FP ağacını göstermektedir.
FP Büyüme Algoritmasının Avantajları
- Bu algoritmanın, her bir yineleme için işlemleri tarayan Apriori ile karşılaştırıldığında veritabanını yalnızca iki kez taraması gerekir.
- Öğelerin eşleştirilmesi bu algoritmada yapılmaz ve bu onu daha hızlı yapar.
- Veritabanı, bellekte kompakt bir sürümde saklanır.
- Hem uzun hem de kısa sık kalıpların madenciliği için verimli ve ölçeklenebilir.
FP Büyüme Algoritmasının Dezavantajları
- FP Ağacı, Apriori'den daha hantal ve yapımı zordur.
- Pahalı olabilir.
- Veritabanı büyük olduğunda, algoritma paylaşılan belleğe sığmayabilir.
Apriori'ye karşı FP Büyümesi
FP Büyümesi | Önsel |
---|---|
Desen Üretimi | |
FP büyümesi, bir FP ağacı oluşturarak model oluşturur | Apriori, öğeleri tekli, çift ve üçlü eşleştirerek desen oluşturur. |
Aday Oluşturma | |
Aday nesil yok | Apriori aday nesil kullanır |
İşlem | |
İşlem Apriori'ye göre daha hızlıdır. Süreç çalışma süresi, öğe kümelerinin sayısındaki artışla doğrusal olarak artar. | Süreç, FP Büyümesinden nispeten daha yavaştır, çalışma zamanı, öğe kümelerinin sayısındaki artışla katlanarak artar |
Veritabanının kompakt bir sürümü kaydedilir | Aday kombinasyonları hafızaya kaydedilir |
ÜSTÜN BAŞARI
Yukarıdaki yöntem olan Apriori ve FP büyümesi, yatay veri formatını kullanarak sık öğe setlerini çıkarır. ECLAT, dikey veri formatını kullanarak sık öğe kümelerini incelemek için bir yöntemdir. Yatay veri formatındaki verileri dikey formata dönüştürecektir.
Örneğin,Apriori ve FP büyüme kullanımı:
İşlem | Eşyaların listesi |
---|---|
T1 | I1, I2, I3 |
T2 | I2, I3, I4 |
T3 | I4, I5 |
T4 | I1, I2, I4 |
T5 | I1, I2, I3, I5 |
T6 | I1, I2, I3, I4 |
ECLAT, tablonun formatına şu şekilde sahip olacaktır:
Öğe | İşlem Seti |
---|---|
I1 | {T1, T4, T5, T6} |
I2 | {T1, T2, T4, T5, T6} |
I3 | {T1, T2, T5, T6} |
I4 | {T2, T3, T4, T5} |
I5 | {T3, T5} |
Bu yöntem, dikey veri biçiminde 2 öğe kümesi, 3 öğe kümesi, k öğe kümesi oluşturacaktır. K ile yapılan bu işlem, aday öğe kümesi bulunmayana kadar 1 artırılır. Apriori ile birlikte diffset gibi bazı optimizasyon teknikleri kullanılmaktadır.
Bu yöntemin Apriori'ye göre bir avantajı vardır çünkü k + 1 öğe setlerinin desteğini bulmak için veritabanının taranmasını gerektirmez. Bunun nedeni, İşlem kümesinin işlemdeki her bir öğenin gerçekleşme sayısını taşıyacak olmasıdır (destek). Darboğaz, setlerin kesişmesi için büyük bellek ve hesaplama süresi alan birçok işlem olduğunda ortaya çıkar.
Sonuç
Apriori algoritması, madencilik ilişkilendirme kuralları için kullanılır. 'Sık kullanılan öğe kümelerinin boş olmayan alt kümeleri de sık olmalıdır' ilkesine göre çalışır. (K-1) item setlerinden k-itemet adayları oluşturur ve sık kullanılan item setlerini bulmak için veritabanını tarar.
Sık Örüntü Büyüme Algoritması, aday oluşturma olmadan sık örüntü bulma yöntemidir. Apriori'nin üretme ve test etme stratejisini kullanmak yerine bir FP Ağacı oluşturur. FP Growth algoritmasının odak noktası, öğelerin yollarını parçalamak ve sık kalıpları araştırmaktır.
Veri Madenciliği Serisindeki bu eğitimlerin Veri Madenciliği hakkındaki bilgilerinizi zenginleştirdiğini umuyoruz !!
Önerilen Kaynaklar
- Veri Madenciliği Teknikleri: Algoritma, Yöntemler ve En İyi Veri Madenciliği Araçları
- Veri Madenciliğinde Apriori Algoritması: Örneklerle Uygulama
- Veri Madenciliğinde Karar Ağacı Algoritma Örnekleri
- Veri Madenciliği Örnekleri: Veri Madenciliğinin En Yaygın Uygulamaları 2021
- Veri Madenciliği: Veri Analizinde Süreç, Teknikler ve Başlıca Sorunlar
- Veri Madenciliği Süreci: Modeller, Süreç Adımları ve İlgili Zorluklar
- CSTE Yazılım Test Sertifikasyon Sınav Soru Modeli
- Veri Madenciliği - Makine Öğrenimi - Yapay Zeka - Derin Öğrenme