Veri Madenciliğinde Sık Modeli (FP) Büyüme Algoritması

frequent pattern growth algorithm data mining

Sorunları Ortadan Kaldırmak Için Enstrümanımızı Deneyin

İşletim Sistemini Seçin Bir Projeksiyon Programı Seçin (Isteğe Bağlı Olarak)

Sorununuzu Açıklayın

Bir FP Ağacı Formunda Veritabanını Temsil Eden Sık Örüntü Büyüme Algoritması Üzerine Ayrıntılı Eğitim. FP Growth Vs Apriori Karşılaştırmasını içerir:

Apriori Algoritması önceki eğitimimizde ayrıntılı olarak açıklanmıştır. Bu eğitimde, Sık Model Büyümesi hakkında bilgi edineceğiz - FP Büyümesi, sık kullanılan öğe kümelerini madencilik yöntemidir.

youtube videolarını indirmek için ücretsiz program

Hepimizin bildiği gibi Apriori, öğe setleri oluşturmaya ve en sık kullanılan öğe setini keşfetmeye odaklanan, sık desen madenciliği için bir algoritmadır. Veritabanındaki öğe setinin boyutunu büyük ölçüde azaltır, ancak Apriori'nin de kendi eksiklikleri vardır.

Bizimle okuyun Tüm Veri Madenciliği Eğitim Serileri tam bir kavram bilgisi için.

Ne öğreneceksin:

Apriori Algoritmasının Eksiklikleri
Sık Örüntü Büyüme Algoritması
FP Ağacı
Sık Örüntü Algoritma Adımları
FP Büyüme Algoritması Örneği
FP Büyüme Algoritmasının Avantajları
FP Büyüme Algoritmasının Dezavantajları
Apriori'ye karşı FP Büyümesi
ÜSTÜN BAŞARI
Sonuç
Önerilen Kaynaklar

Apriori Algoritmasının Eksiklikleri

Apriori'yi kullanmak, bir nesil aday öğe setine ihtiyaç duyar. Veritabanındaki öğe kümesi çok büyükse, bu öğe kümelerinin sayısı büyük olabilir.
Apriori, oluşturulan her öğe setinin desteğini kontrol etmek için veritabanının birden çok taramasına ihtiyaç duyar ve bu da yüksek maliyetlere yol açar.

Bu eksiklikler, FP büyüme algoritması kullanılarak giderilebilir.

Sık Örüntü Büyüme Algoritması

Bu algoritma, Apriori yönteminde bir iyileştirmedir. Aday oluşturmaya gerek kalmadan sık bir model oluşturulur. FP büyüme algoritması, veritabanını sık desen ağacı veya FP ağacı olarak adlandırılan bir ağaç şeklinde temsil eder.

Bu ağaç yapısı, öğe kümeleri arasındaki ilişkiyi sürdürecektir. Veritabanı, bir sık kullanılan öğe kullanılarak bölünmüştür. Bu parçalanmış bölüme 'desen parçası' denir. Bu parçalı desenlerin öğe setleri analiz edilir. Böylelikle bu yöntemle, sık kullanılan öğe setlerinin aranması nispeten azaltılır.

FP Ağacı

Sık Model Ağacı, veritabanının ilk öğe setleriyle yapılan ağaç benzeri bir yapıdır. FP ağacının amacı, en sık görülen kalıbı çıkarmaktır. FP ağacının her bir düğümü, öğe kümesinin bir öğesini temsil eder.

Kök düğüm boşluğu temsil ederken, alt düğümler öğe setlerini temsil eder. Ağaç oluşturulurken düğümlerin diğer öğe kümeleri ile öğe kümeleri olan alt düğümlerle ilişkisi korunur.

Sık Örüntü Algoritma Adımları

Sık model büyütme yöntemi, aday oluşturma olmadan sık görülen modeli bulmamızı sağlar.

Sık örüntü büyütme algoritmasını kullanarak sık örüntüyü araştırmak için izlenen adımları görelim:

# 1) İlk adım, veritabanındaki öğe setlerinin oluşumlarını bulmak için veritabanını taramaktır. Bu adım, Apriori'nin ilk adımı ile aynıdır. Veritabanındaki 1 öğe setlerinin sayısına destek sayısı veya 1 öğe setinin sıklığı denir.

#iki) İkinci adım, FP ağacını oluşturmaktır. Bunun için ağacın kökünü oluşturun. Kök, null ile temsil edilir.

# 3) Bir sonraki adım, veritabanını tekrar taramak ve işlemleri incelemektir. İlk işlemi inceleyin ve içindeki kalem setini bulun. Maksimum sayıya sahip öğe kümesi en üstte alınır, sonraki öğe kümesi daha düşük sayı ile vb. Ağacın dalının, azalan sayı sırasına göre işlem öğe kümeleri ile oluşturulduğu anlamına gelir.

# 4) Veritabanındaki bir sonraki işlem incelenir. Öğe setleri, azalan sayı sırasına göre sıralanır. Bu işlemin herhangi bir öğe kümesi başka bir şubede zaten mevcutsa (örneğin 1. işlemde), bu işlem dalı kökle ortak bir öneki paylaşacaktır.

Bu, ortak öğe kümesinin bu işlemdeki başka bir öğe kümesinin yeni düğümüne bağlı olduğu anlamına gelir.

# 5) Ayrıca, işlemlerde ortaya çıktıkça kalem setinin sayısı artar. Hem ortak düğüm hem de yeni düğüm sayısı, işlemlere göre oluşturuldukça ve bağlandıkça 1 artar.

# 6) Bir sonraki adım, oluşturulan FP Ağacı'nı çıkarmaktır. Bunun için ilk olarak en alttaki düğüm, en düşük düğümlerin bağlantıları ile birlikte incelenir. En düşük düğüm, frekans örüntü uzunluğunu 1 temsil eder. Buradan FP Ağacındaki yolu çaprazlayın. Bu yol veya yollara koşullu desen tabanı denir.

Koşullu kalıp tabanı, en düşük düğüm (sonek) ile oluşan FP ağacındaki önek yollarından oluşan bir alt veritabanıdır.

# 7) Yoldaki bir dizi öğe kümesinden oluşan bir Koşullu FP Ağacı oluşturun. Eşik desteğini karşılayan öğe grupları Koşullu FP Ağacında dikkate alınır.

# 8) Koşullu FP Ağacından Sık Modeller oluşturulur.

FP Büyüme Algoritması Örneği

Destek eşiği =% 50, Güven =% 60

tablo 1

İşlem	Eşyaların listesi
Hafıza kullanımı
T1	I1, I2, I3
T2	I2, I3, I4
T3	I4, I5
T4	I1, I2, I4
T5	I1, I2, I3, I5
T6	I1, I2, I3, I4

Çözüm:

Destek eşiği =% 50 => 0.5 * 6 = 3 => min_sup = 3

1. Her öğenin sayısı

Tablo 2

.eps dosyası nedir

Öğe	Miktar
I1	4
I2	5
I3	4
I4	4
I5	iki

2. Öğe kümesini azalan düzende sıralayın.

tutulmada java uygulaması nasıl oluşturulur

Tablo 3

Öğe	Miktar
I2	5
I1	4
I3	4
I4	4

3. FP Ağacı Oluşturun

Kök düğüm boşluğu göz önüne alındığında.
İşlem T1: I1, I2, I3'ün ilk taraması üç öğe {I1: 1}, {I2: 1}, {I3: 1} içerir; burada I2 köke alt öğe olarak, I1 ise I2 ve I3'e bağlıdır. I1 ile bağlantılıdır.
T2: I2, I3, I4, I2, I3 ve I4'ü içerir; burada I2 köke, I3, I2'ye ve I4, I3'e bağlıdır. Ancak bu dal, T1'de zaten kullanıldığı gibi I2 düğümünü paylaşacaktır.
I2 sayısını 1 artırın ve I3 çocuk olarak I2'ye bağlanır, I4 çocuk olarak I3'e bağlanır. Sayı {I2: 2}, {I3: 1}, {I4: 1}.
Ö3: I4, I5. Benzer şekilde, bir çocuk oluşturulurken I5 ile yeni bir şube I4'e bağlanır.
Ö4: I1, I2, I4. Dizi I2, I1 ve I4 olacaktır. I2 zaten kök düğüme bağlıdır, bu nedenle 1 artırılacaktır. Benzer şekilde I1, T1'de I2'ye zaten bağlı olduğundan 1 artırılacaktır, dolayısıyla {I2: 3}, {I1: 2}, {I4: 1}.
Ö5: I1, I2, I3, I5. Dizi I2, I1, I3 ve I5 olacaktır. Böylece {I2: 4}, {I1: 3}, {I3: 2}, {I5: 1}.
Ö6: I1, I2, I3, I4. Sıra I2, I1, I3 ve I4 olacaktır. Böylece {I2: 5}, {I1: 4}, {I3: 3}, {I4 1}.

FP Ağacı

4. FP ağacının madenciliği aşağıda özetlenmiştir:

En düşük düğüm öğesi I5, minimum destek sayısına sahip olmadığı için dikkate alınmaz, dolayısıyla silinir.
Bir sonraki alt düğüm I4'tür. I4, 2 dalda oluşur, {I2, I1, I3:, I41}, {I2, I3, I4: 1}. Bu nedenle, I4'ün son ek olduğu düşünülürse, önek yolları {I2, I1, I3: 1}, {I2, I3: 1} olacaktır. Bu koşullu örüntü temelini oluşturur.
Koşullu model tabanı bir işlem veritabanı olarak kabul edilir, bir FP ağacı oluşturulur. Bu, {I2: 2, I3: 2} içerecektir, I1 minimum destek sayısını karşılamadığı için dikkate alınmaz.
Bu yol, tüm sık kalıp kombinasyonlarını oluşturacaktır: {I2, I4: 2}, {I3, I4: 2}, {I2, I3, I4: 2}
I3 için, önek yolu şöyle olacaktır: {I2, I1: 3}, {I2: 1}, bu 2 düğümlü bir FP ağacı oluşturacaktır: {I2: 4, I1: 3} ve sık kalıplar üretilir: {I2 , I3: 4}, {I1: I3: 3}, {I2, I1, I3: 3}.
I1 için, önek yolu şöyle olacaktır: {I2: 4} bu, tek bir düğümlü FP ağacı oluşturacaktır: {I2: 4} ve sık kalıplar üretilir: {I2, I1: 4}.

Öğe	Koşullu Desen Tabanı	Koşullu FP ağacı	Oluşturulan Sık Modeller
I4	{I2, I1, I3: 1}, {I2, I3: 1}	{I2: 2, I3: 2}	{I2, I4: 2}, {I3, I4: 2}, {I2, I3, I4: 2}
I3	{I2, I1: 3}, {I2: 1}	{I2: 4, I1: 3}	{I2, I3: 4}, {I1: I3: 3}, {I2, I1, I3: 3}
I1	{I2: 4}	{I2: 4}	{I2, I1: 4}

Aşağıda verilen diyagram, koşullu düğüm I3 ile ilişkili koşullu FP ağacını göstermektedir.

koşullu düğüm I3 ile ilişkili koşullu FP ağacı

FP Büyüme Algoritmasının Avantajları

Bu algoritmanın, her bir yineleme için işlemleri tarayan Apriori ile karşılaştırıldığında veritabanını yalnızca iki kez taraması gerekir.
Öğelerin eşleştirilmesi bu algoritmada yapılmaz ve bu onu daha hızlı yapar.
Veritabanı, bellekte kompakt bir sürümde saklanır.
Hem uzun hem de kısa sık kalıpların madenciliği için verimli ve ölçeklenebilir.

FP Büyüme Algoritmasının Dezavantajları

FP Ağacı, Apriori'den daha hantal ve yapımı zordur.
Pahalı olabilir.
Veritabanı büyük olduğunda, algoritma paylaşılan belleğe sığmayabilir.

Apriori'ye karşı FP Büyümesi

FP Büyümesi	Önsel
Desen Üretimi
FP büyümesi, bir FP ağacı oluşturarak model oluşturur	Apriori, öğeleri tekli, çift ve üçlü eşleştirerek desen oluşturur.
Aday Oluşturma
Aday nesil yok	Apriori aday nesil kullanır
İşlem
İşlem Apriori'ye göre daha hızlıdır. Süreç çalışma süresi, öğe kümelerinin sayısındaki artışla doğrusal olarak artar.	Süreç, FP Büyümesinden nispeten daha yavaştır, çalışma zamanı, öğe kümelerinin sayısındaki artışla katlanarak artar
Veritabanının kompakt bir sürümü kaydedilir	Aday kombinasyonları hafızaya kaydedilir

ÜSTÜN BAŞARI

Yukarıdaki yöntem olan Apriori ve FP büyümesi, yatay veri formatını kullanarak sık öğe setlerini çıkarır. ECLAT, dikey veri formatını kullanarak sık öğe kümelerini incelemek için bir yöntemdir. Yatay veri formatındaki verileri dikey formata dönüştürecektir.

Örneğin,Apriori ve FP büyüme kullanımı:

İşlem	Eşyaların listesi
T1	I1, I2, I3
T2	I2, I3, I4
T3	I4, I5
T4	I1, I2, I4
T5	I1, I2, I3, I5
T6	I1, I2, I3, I4

ECLAT, tablonun formatına şu şekilde sahip olacaktır:

Öğe	İşlem Seti
I1	{T1, T4, T5, T6}
I2	{T1, T2, T4, T5, T6}
I3	{T1, T2, T5, T6}
I4	{T2, T3, T4, T5}
I5	{T3, T5}

Bu yöntem, dikey veri biçiminde 2 öğe kümesi, 3 öğe kümesi, k öğe kümesi oluşturacaktır. K ile yapılan bu işlem, aday öğe kümesi bulunmayana kadar 1 artırılır. Apriori ile birlikte diffset gibi bazı optimizasyon teknikleri kullanılmaktadır.

Bu yöntemin Apriori'ye göre bir avantajı vardır çünkü k + 1 öğe setlerinin desteğini bulmak için veritabanının taranmasını gerektirmez. Bunun nedeni, İşlem kümesinin işlemdeki her bir öğenin gerçekleşme sayısını taşıyacak olmasıdır (destek). Darboğaz, setlerin kesişmesi için büyük bellek ve hesaplama süresi alan birçok işlem olduğunda ortaya çıkar.

Sonuç

Apriori algoritması, madencilik ilişkilendirme kuralları için kullanılır. 'Sık kullanılan öğe kümelerinin boş olmayan alt kümeleri de sık olmalıdır' ilkesine göre çalışır. (K-1) item setlerinden k-itemet adayları oluşturur ve sık kullanılan item setlerini bulmak için veritabanını tarar.

Sık Örüntü Büyüme Algoritması, aday oluşturma olmadan sık örüntü bulma yöntemidir. Apriori'nin üretme ve test etme stratejisini kullanmak yerine bir FP Ağacı oluşturur. FP Growth algoritmasının odak noktası, öğelerin yollarını parçalamak ve sık kalıpları araştırmaktır.

Veri Madenciliği Serisindeki bu eğitimlerin Veri Madenciliği hakkındaki bilgilerinizi zenginleştirdiğini umuyoruz !!

PREV Eğitimi | FIRST Eğitimi

Veri Madenciliğinde Sık Modeli (FP) Büyüme Algoritması

Apriori Algoritmasının Eksiklikleri

Sık Örüntü Büyüme Algoritması

FP Ağacı

Sık Örüntü Algoritma Adımları

FP Büyüme Algoritması Örneği

FP Büyüme Algoritmasının Avantajları

FP Büyüme Algoritmasının Dezavantajları

Apriori'ye karşı FP Büyümesi

ÜSTÜN BAŞARI

Sonuç

Önerilen Kaynaklar

Ilginç Haberler

Editörün Seçimi

VBScript İşlevleri ve Prosedürleri

Nisan ayında Gold ile Xbox Oyunlarında en cazip oyunu bulmaya çalışın

Shovel Knight: Spectre of Torment hoş bir vinil OST sürümü alıyor

En İyi 10 Windows İş Planlama Yazılımı (2021 SEÇİCİ)

Zelda Tears of the Kingdom fragmanındaki en ateşli 5 seksi kız

WoW Dragonflight'taki tüm karaborsa müzayede evi konumları

İnceleme: Time Machine VR

Tekken 8, bu haftaki Oyun Ödüllerinde yer alacağını doğruladı

İnceleme: Pokemon Sun

Phasmophobia, yeni güncellemeyle perili bir kamp alanı ve daha fazlasını alıyor

Genshin Impact'teki En İyi Sayu Yapıları, Silahları ve Takımları

Aşkımızın Hayaleti yüzen mumlar bulmaca çözümü: Hogwarts Legacy rehberi