Veri Madenciliğinde Apriori Algoritması: Örneklerle Uygulama

apriori algorithm data mining

Sorunları Ortadan Kaldırmak Için Enstrümanımızı Deneyin

İşletim Sistemini Seçin Bir Projeksiyon Programı Seçin (Isteğe Bağlı Olarak)

Sorununuzu Açıklayın

Veri Madenciliğinde Sık Kullanılan Kalem Kümelerini Bulmak İçin Apriori Algoritması Üzerine Derinlemesine Eğitim. Bu Eğitim, Apriori'deki Adımları ve Nasıl Çalıştığını Açıklıyor:

Bunda Veri Madenciliği Eğitim Serisi bir baktık Karar Ağacı Algoritması önceki eğitimimizde.

Veri Madenciliği için ilişkilendirme, korelasyon, sınıflandırma ve kümeleme gibi çeşitli yöntemler vardır.

orada kaç tane e-posta sağlayıcısı var

Bu eğitim, öncelikle ilişkilendirme kurallarını kullanarak madenciliğe odaklanır. İlişkilendirme kurallarına göre, bir tabloda birlikte ortaya çıkan öğe veya öznitelik kümesini belirleriz.

Apriori algoritması

Ne öğreneceksin:

Bir Öğe Seti Nedir?
Neden Sıkça Kalem Seti Madenciliği?
- Apriori Algoritması - Sık Örüntü Algoritmaları
Apriori Verimliliğini Artırma Yöntemleri
Apriori Algoritmasının Uygulamaları
Sonuç
- Önerilen Kaynaklar

Bir Öğe Seti Nedir?

Bir dizi öğeye birlikte öğe kümesi denir. Herhangi bir itemet'in k-itemleri varsa buna k-itemset denir. Bir öğe seti iki veya daha fazla maddeden oluşur. Sık görülen bir öğe setine sık öğe seti denir. Bu nedenle, sık öğe seti madenciliği, genellikle birlikte ortaya çıkan öğeleri tanımlamak için bir veri madenciliği tekniğidir.

Örneğin , Ekmek ve tereyağı, Dizüstü Bilgisayar ve Antivirüs yazılımı vb.

Sık Kullanılan Öğe Kümesi Nedir?

Destek ve güven için minimum eşik değerini karşılıyorsa, bir dizi öğeye sık denir. Destek, tek bir işlemde birlikte satın alınan öğelerle işlemleri gösterir. Güven, ürünlerin birbiri ardına satın alındığı işlemleri gösterir.

Sık ürün seti madenciliği yöntemi için, yalnızca minimum eşik desteği ve güven gereksinimlerini karşılayan işlemleri dikkate alırız. Bu madencilik algoritmalarından elde edilen bilgiler birçok fayda, maliyet düşürme ve gelişmiş rekabet avantajı sunar.

Verileri çıkarmak için bir takas süresi ve sık madencilik için veri hacmi var. Sık madencilik algoritması, kısa bir süre ve daha az bellek tüketimi içinde öğe setlerinin gizli kalıplarını araştırmak için etkili bir algoritmadır.

Sık Model Madenciliği (FPM)

Sık model madenciliği algoritması, bir veri kümesindeki farklı öğeler arasındaki ilişkileri keşfetmek için veri madenciliğinin en önemli tekniklerinden biridir. Bu ilişkiler, ilişkilendirme kuralları biçiminde temsil edilir. Verilerdeki düzensizlikleri bulmaya yardımcı olur.

FPM, veri analizi, yazılım hataları, çapraz pazarlama, satış kampanyası analizi, pazar sepeti analizi vb. Alanlarda birçok uygulamaya sahiptir.

Apriori aracılığıyla keşfedilen sık kullanılan öğe kümeleri, veri madenciliği görevlerinde birçok uygulamaya sahiptir. Veritabanında ilginç kalıplar bulma, sırayı bulma ve birleşme kurallarının madenciliği gibi görevler bunların en önemlisidir.

İlişkilendirme kuralları, süpermarket işlem verilerine, yani satın alınan ürünler açısından müşteri davranışını incelemek için geçerlidir. İlişkilendirme kuralları, ürünlerin ne sıklıkla birlikte satın alındığını tanımlar.

İlişkilendirme Kuralları

İlişkilendirme Kural Madenciliği şu şekilde tanımlanır:

'I = {…}, öğeler adı verilen bir' n 'ikili öznitelik kümesi olsun. D = {….} Veritabanı adı verilen işlem kümesi olsun. D'deki her işlemin benzersiz bir işlem kimliği vardır ve I'deki öğelerin bir alt kümesini içerir. Kural, X-> Y biçiminin bir sonucu olarak tanımlanır, burada X, Y? Ben ve X? Y = ?. X ve Y öğeleri kümesi, sırasıyla kuralın öncülü ve sonucu olarak adlandırılır. '

İlişkilendirme kurallarının öğrenilmesi, büyük veritabanlarındaki öznitelikler arasındaki ilişkileri bulmak için kullanılır. İlişkilendirme kuralı, A => B, 'bir dizi işlem için, A öğelerinin bir miktar değeri, minimum destek ve güvenin karşılandığı koşul altında B öğelerinin değerlerini belirler' şeklinde olacaktır.

Destek ve Güven aşağıdaki örnekle gösterilebilir:

Bread=> butter (support=2%, confidence-60%)

Yukarıdaki ifade, bir ilişkilendirme kuralı örneğidir. Bu, birlikte ekmek ve tereyağı satın alan% 2'lik bir işlem olduğu ve tereyağının yanı sıra ekmek satın alan müşterilerin% 60'ı olduğu anlamına gelir.

Öğe Kümesi A ve B için Destek ve Güven aşağıdaki formüllerle temsil edilir:

Öğe Seti A ve B için Destek ve Güven Formülü

İlişkilendirme kuralı madenciliği 2 adımdan oluşur:

Tüm sık kullanılan öğe setlerini bulun.
Yukarıdaki sık kullanılan öğe kümelerinden ilişkilendirme kuralları oluşturun.

Neden Sıkça Kalem Seti Madenciliği?

Sık kullanılan öğe seti veya desen madenciliği, madencilik birliği kuralları, korelasyonlar ve sık desenlere, sıralı desenlere ve diğer birçok veri madenciliği görevine dayanan grafik desen kısıtlamasındaki geniş uygulamaları nedeniyle yaygın olarak kullanılmaktadır.

Apriori Algoritması - Sık Örüntü Algoritmaları

Apriori algoritması, sık öğe seti madenciliği için önerilen ilk algoritmaydı. Daha sonra R Agarwal ve R Srikant tarafından geliştirildi ve Apriori olarak bilinmeye başlandı. Bu algoritma, arama alanını azaltmak için iki adım 'birleştirme' ve 'budama' kullanır. En sık kullanılan öğe setlerini keşfetmek için yinelemeli bir yaklaşımdır.

Apriori diyor ki:

1. maddenin sık olmama olasılığı şudur:

P (I)
P (I + A)
Bir öğe kümesi minimum destekten daha düşük bir değere sahipse, tüm üst kümeleri de minimum desteğin altına düşer ve bu nedenle göz ardı edilebilir. Bu özelliğe Antimonotone özelliği denir.

Veri madenciliğinin Apriori Algoritmasında izlenen adımlar şunlardır:

Adım Katıl : Bu adım, her bir öğeyi kendisiyle birleştirerek K-öğe kümelerinden (K + 1) öğe kümesi oluşturur.
Budama Adımı : Bu adım, veritabanındaki her bir öğenin sayısını tarar. Aday öğe minimum desteği karşılamıyorsa, seyrek olarak kabul edilir ve bu nedenle kaldırılır. Bu adım, aday öğe setlerinin boyutunu azaltmak için gerçekleştirilir.

Apriori'de Adımlar

Apriori algoritması, verilen veritabanında en sık kullanılan öğe setini bulmak için izlenecek adımlar dizisidir. Bu veri madenciliği tekniği, en sık öğe kümesi elde edilene kadar birleştirme ve budama adımlarını yinelemeli olarak izler. Problemde minimum bir destek eşiği verilir veya kullanıcı tarafından varsayılır.

# 1) Algoritmanın ilk yinelemesinde, her öğe 1 öğe kümesi adayı olarak alınır. Algoritma, her bir öğenin oluşumunu sayacaktır.

#iki) Minimum destek olsun, min_sup (örneğin 2). Oluşumu minimum suportu tatmin eden 1-öğe kümeleri belirlenir. Yalnızca min_sup değerine eşit veya daha fazla sayılan adaylar bir sonraki yineleme için öne alınır ve diğerleri budanır.

# 3) Ardından, min_sup ile 2 öğe setli sık öğeler keşfedilir. Bunun için birleştirme adımında, öğeler kendisiyle birleştirilerek 2'li bir grup oluşturularak 2 öğe kümesi oluşturulur.

# 4) 2 maddeli adaylar min-sup eşik değeri kullanılarak budanmıştır. Şimdi tabloda yalnızca min-sup ile 2 öğe kümesi olacaktır.

# 5) Bir sonraki yineleme, birleştirme ve eritme adımını kullanarak 3 öğe kümesi oluşturacaktır. Bu yineleme, 3-öğe kümesinin alt kümelerinin, yani her grubun 2-öğe kümesi alt kümelerinin min_sup içine düştüğü antimonotone özelliğini takip edecektir. Tüm 2 öğeli alt kümeler sıksa, üst küme sık sık olacak, aksi takdirde budanmış olur.

# 6) Sonraki adım, 3-itemet'e kendisiyle katılarak 4-itemet oluşturmayı ve altkümesi min_sup kriterlerini karşılamıyorsa budamayı takip edecektir. En sık öğe kümesi elde edildiğinde algoritma durdurulur.

Apriori Adımları

(resim kaynak )

Apriori Örneği:Destek eşiği =% 50, Güven =% 60

TABLO 1

İşlem	Eşyaların listesi
T1	I1, I2, I3
T2	I2, I3, I4
T3	I4, I5
T4	I1, I2, I4
T5	I1, I2, I3, I5
T6	I1, I2, I3, I4

Çözüm:

Destek eşiği =% 50 => 0.5 * 6 = 3 => min_sup = 3

1. Her Öğenin Sayısı

TABLO 2

Öğe	Miktar
I1	4
I2	5
I3	4
I4	4
I5	iki

iki. Budama Adımı: TABLO 2 I5 öğesinin min_sup = 3'ü karşılamadığını gösterir, bu nedenle silinir, sadece I1, I2, I3, I4 min_sup sayımını karşılar.

TABLO 3

Öğe	Miktar
I1	4
I2	5
I3	4
I4	4

3. Katılma Adımı: 2-öğe kümesi oluşturun. Nereden TABLO 1 2 öğe kümesinin oluşumlarını öğrenin.

TABLO-4

Öğe	Miktar
I1, I2	4
I1, I3	3
I1, I4	iki
I2, I3	4
I2, I4	3
I3, I4	iki

Dört. Budama Adımı: TABLO -4 {I1, I4} ve {I3, I4} öğe kümesinin min_sup ile uyuşmadığını gösterir, dolayısıyla silinir.

en iyi youtube mp3 dönüştürücü indir

TABLO-5

Öğe	Miktar
I1, I2	4
I1, I3	3
I2, I3	4
I2, I4	3

5. Katıl ve Prune Adımı: 3-öğe kümesi oluşturun. İtibaren TABLO 1 3-öğe kümesinin oluşumlarını bulun. Nereden TABLO-5 min_sup öğesini destekleyen 2 öğe kümesi alt kümelerini bulun.

{I1, I2, I3} öğe kümesi için, {I1, I2}, {I1, I3}, {I2, I3} alt kümelerinin TABLO-5 dolayısıyla {I1, I2, I3} sıktır.

{I1, I2, I4} öğe kümesi için, {I1, I2}, {I1, I4}, {I2, I4}, {I1, I4} alt kümelerinin sık olmadığını görebiliriz, çünkü TABLO-5 dolayısıyla {I1, I2, I4} sık değildir, dolayısıyla silinir.

TABLO-6

Öğe
I1, I2, I3
I1, I2, I4
I1, I3, I4
I2, I3, I4

Yalnızca {I1, I2, I3} sıktır .

6. İlişkilendirme Kuralları Oluşturun: Yukarıda bulunan sık öğeler kümesinden ilişkilendirme şunlar olabilir:

{I1, I2} => {I3}

Güven = destek {I1, I2, I3} / destek {I1, I2} = (3/4) * 100 =% 75

{I1, I3} => {I2}

Güven = destek {I1, I2, I3} / destek {I1, I3} = (3/3) * 100 =% 100

{I2, I3} => {I1}

Güven = destek {I1, I2, I3} / destek {I2, I3} = (3/4) * 100 =% 75

{I1} => {I2, I3}

Güven = destek {I1, I2, I3} / destek {I1} = (3/4) * 100 =% 75

{I2} => {I1, I3}

Güven = destek {I1, I2, I3} / destek {I2 = (3/5) * 100 =% 60

{I3} => {I1, I2}

Güven = destek {I1, I2, I3} / destek {I3} = (3/4) * 100 =% 75

Bu, minimum güven eşiği% 60 ise yukarıdaki tüm ilişkilendirme kurallarının güçlü olduğunu gösterir.

Apriori Algoritması: Sözde Kod

C: K beden için aday eşya seti

L: k boyutunda sık kullanılan öğe kümesi

Sözde kod

(resim kaynak )

Avantajları

Anlaşılması kolay algoritma
Join ve Prune adımlarının büyük veritabanlarındaki büyük öğe setlerine uygulanması kolaydır

Dezavantajları

Öğe setleri çok büyükse ve minimum destek çok düşük tutulursa yüksek hesaplama gerektirir.
Veritabanının tamamının taranması gerekiyor.

Apriori Verimliliğini Artırma Yöntemleri

Algoritmanın verimliliğini artırmak için birçok yöntem mevcuttur.

Hash Tabanlı Teknik: Bu yöntem, k-öğe kümelerini ve karşılık gelen sayısını oluşturmak için karma tablo adı verilen karma tabanlı bir yapı kullanır. Tabloyu oluşturmak için bir hash işlevi kullanır.
İşlem Azaltma: Bu yöntem, yinelemelerde taranan işlemlerin sayısını azaltır. Sık kalem içermeyen işlemler işaretlenir veya kaldırılır.
Bölümleme: Bu yöntem, sık kullanılan öğe setlerini incelemek için yalnızca iki veritabanı taraması gerektirir. Herhangi bir öğe setinin veritabanında potansiyel olarak sık olması için, veritabanının en az bir bölümünde sık olması gerektiğini söylüyor.
Örnekleme: Bu yöntem, Veritabanı D'den rastgele bir örnek S seçer ve ardından S'de sık kullanılan öğe setini arar. Genel bir sık öğe setini kaybetmek mümkün olabilir. Bu, min_sup değerini düşürerek azaltılabilir.
Dinamik Öğe Kümesi Sayımı: Bu teknik, veritabanının taranması sırasında veritabanının herhangi bir işaretli başlangıç noktasına yeni aday öğe setleri ekleyebilir.

Apriori Algoritmasının Uygulamaları

Apriori'nin kullanıldığı bazı alanlar:

Eğitim Alanında: Kabul edilen öğrencilerin veri madenciliğinde ilişkilendirme kurallarının özellikler ve uzmanlıklar yoluyla çıkarılması.
Tıp alanında: Örneğin, hastanın veritabanının analizi.
Ormancılıkta: Orman yangını verileri ile orman yangını olasılık ve şiddetinin analizi.
Apriori, Amazon gibi birçok şirket tarafından Öneri Sistemi ve otomatik tamamlama özelliği için Google tarafından.

Sonuç

Apriori algoritması, veritabanını yalnızca bir kez tarayan verimli bir algoritmadır.

Veritabanındaki öğe setlerinin boyutunu önemli ölçüde düşürerek iyi bir performans sağlar. Böylece veri madenciliği, tüketicilere ve endüstrilere karar verme sürecinde daha iyi yardımcı olur.

Sık Örüntü Büyüme Algoritması hakkında daha fazla bilgi edinmek için yaklaşan eğitimimize göz atın !!

PREV Eğitimi | SONRAKİ Eğitici

Veri Madenciliğinde Apriori Algoritması: Örneklerle Uygulama

Bir Öğe Seti Nedir?

Sık Kullanılan Öğe Kümesi Nedir?

Sık Model Madenciliği (FPM)

İlişkilendirme Kuralları

Neden Sıkça Kalem Seti Madenciliği?

Apriori Algoritması - Sık Örüntü Algoritmaları

Apriori'de Adımlar

Avantajları

Dezavantajları

Apriori Verimliliğini Artırma Yöntemleri

Apriori Algoritmasının Uygulamaları

Sonuç

Önerilen Kaynaklar

Ilginç Haberler

Editörün Seçimi

Zelda: Breath of the Wild'ın devasa hayran genişleme paketi Second Wind başka bir güncelleme aldı

3DS ile yapılan Senran Kagura serisi, Switch oyunu yerelleştirilebilir

Skull and Bones'un bu haftaki açık beta sürümü, tam lansman için ilerlemeyi kaydedecek

Rocket League yakında Xbox'ta anahtar ticareti destekleyecek ve bu platformlar arası işlemlere kapı açabilir

İnceleme: Momodora: Ayışığı Altında Reverie

Picross S+, eski 3DS bulmacalarını bu ay Switch'e getiriyor

Neden Hogwarts Legacy'de 5. sınıf öğrencisisin? cevaplandı

XCOM 2 önyükleme şimdi canlı, ön sipariş fırsatları toplama

IO Interactive, çevrimiçi bir fantezi RPG yapıyor

Bilinmeyen Dünyalar, yaklaşmakta olan strateji oyunu Moonbreaker için PC oyun testlerini detaylandırıyor

Nintendo, bu hafta boyunca bir House of Indies tatil etkinliğine ev sahipliği yapıyor

Palworld'de Paldium Parçaları nasıl elde edilir