apriori algorithm data mining
Veri Madenciliğinde Sık Kullanılan Kalem Kümelerini Bulmak İçin Apriori Algoritması Üzerine Derinlemesine Eğitim. Bu Eğitim, Apriori'deki Adımları ve Nasıl Çalıştığını Açıklıyor:
Bunda Veri Madenciliği Eğitim Serisi bir baktık Karar Ağacı Algoritması önceki eğitimimizde.
Veri Madenciliği için ilişkilendirme, korelasyon, sınıflandırma ve kümeleme gibi çeşitli yöntemler vardır.
orada kaç tane e-posta sağlayıcısı var
Bu eğitim, öncelikle ilişkilendirme kurallarını kullanarak madenciliğe odaklanır. İlişkilendirme kurallarına göre, bir tabloda birlikte ortaya çıkan öğe veya öznitelik kümesini belirleriz.
Ne öğreneceksin:
- Bir Öğe Seti Nedir?
- Neden Sıkça Kalem Seti Madenciliği?
- Apriori Verimliliğini Artırma Yöntemleri
- Apriori Algoritmasının Uygulamaları
- Sonuç
Bir Öğe Seti Nedir?
Bir dizi öğeye birlikte öğe kümesi denir. Herhangi bir itemet'in k-itemleri varsa buna k-itemset denir. Bir öğe seti iki veya daha fazla maddeden oluşur. Sık görülen bir öğe setine sık öğe seti denir. Bu nedenle, sık öğe seti madenciliği, genellikle birlikte ortaya çıkan öğeleri tanımlamak için bir veri madenciliği tekniğidir.
Örneğin , Ekmek ve tereyağı, Dizüstü Bilgisayar ve Antivirüs yazılımı vb.
Sık Kullanılan Öğe Kümesi Nedir?
Destek ve güven için minimum eşik değerini karşılıyorsa, bir dizi öğeye sık denir. Destek, tek bir işlemde birlikte satın alınan öğelerle işlemleri gösterir. Güven, ürünlerin birbiri ardına satın alındığı işlemleri gösterir.
Sık ürün seti madenciliği yöntemi için, yalnızca minimum eşik desteği ve güven gereksinimlerini karşılayan işlemleri dikkate alırız. Bu madencilik algoritmalarından elde edilen bilgiler birçok fayda, maliyet düşürme ve gelişmiş rekabet avantajı sunar.
Verileri çıkarmak için bir takas süresi ve sık madencilik için veri hacmi var. Sık madencilik algoritması, kısa bir süre ve daha az bellek tüketimi içinde öğe setlerinin gizli kalıplarını araştırmak için etkili bir algoritmadır.
Sık Model Madenciliği (FPM)
Sık model madenciliği algoritması, bir veri kümesindeki farklı öğeler arasındaki ilişkileri keşfetmek için veri madenciliğinin en önemli tekniklerinden biridir. Bu ilişkiler, ilişkilendirme kuralları biçiminde temsil edilir. Verilerdeki düzensizlikleri bulmaya yardımcı olur.
FPM, veri analizi, yazılım hataları, çapraz pazarlama, satış kampanyası analizi, pazar sepeti analizi vb. Alanlarda birçok uygulamaya sahiptir.
Apriori aracılığıyla keşfedilen sık kullanılan öğe kümeleri, veri madenciliği görevlerinde birçok uygulamaya sahiptir. Veritabanında ilginç kalıplar bulma, sırayı bulma ve birleşme kurallarının madenciliği gibi görevler bunların en önemlisidir.
İlişkilendirme kuralları, süpermarket işlem verilerine, yani satın alınan ürünler açısından müşteri davranışını incelemek için geçerlidir. İlişkilendirme kuralları, ürünlerin ne sıklıkla birlikte satın alındığını tanımlar.
İlişkilendirme Kuralları
İlişkilendirme Kural Madenciliği şu şekilde tanımlanır:
'I = {…}, öğeler adı verilen bir' n 'ikili öznitelik kümesi olsun. D = {….} Veritabanı adı verilen işlem kümesi olsun. D'deki her işlemin benzersiz bir işlem kimliği vardır ve I'deki öğelerin bir alt kümesini içerir. Kural, X-> Y biçiminin bir sonucu olarak tanımlanır, burada X, Y? Ben ve X? Y = ?. X ve Y öğeleri kümesi, sırasıyla kuralın öncülü ve sonucu olarak adlandırılır. '
İlişkilendirme kurallarının öğrenilmesi, büyük veritabanlarındaki öznitelikler arasındaki ilişkileri bulmak için kullanılır. İlişkilendirme kuralı, A => B, 'bir dizi işlem için, A öğelerinin bir miktar değeri, minimum destek ve güvenin karşılandığı koşul altında B öğelerinin değerlerini belirler' şeklinde olacaktır.
Destek ve Güven aşağıdaki örnekle gösterilebilir:
Bread=> butter (support=2%, confidence-60%)
Yukarıdaki ifade, bir ilişkilendirme kuralı örneğidir. Bu, birlikte ekmek ve tereyağı satın alan% 2'lik bir işlem olduğu ve tereyağının yanı sıra ekmek satın alan müşterilerin% 60'ı olduğu anlamına gelir.
Öğe Kümesi A ve B için Destek ve Güven aşağıdaki formüllerle temsil edilir:
İlişkilendirme kuralı madenciliği 2 adımdan oluşur:
- Tüm sık kullanılan öğe setlerini bulun.
- Yukarıdaki sık kullanılan öğe kümelerinden ilişkilendirme kuralları oluşturun.
Neden Sıkça Kalem Seti Madenciliği?
Sık kullanılan öğe seti veya desen madenciliği, madencilik birliği kuralları, korelasyonlar ve sık desenlere, sıralı desenlere ve diğer birçok veri madenciliği görevine dayanan grafik desen kısıtlamasındaki geniş uygulamaları nedeniyle yaygın olarak kullanılmaktadır.
Apriori Algoritması - Sık Örüntü Algoritmaları
Apriori algoritması, sık öğe seti madenciliği için önerilen ilk algoritmaydı. Daha sonra R Agarwal ve R Srikant tarafından geliştirildi ve Apriori olarak bilinmeye başlandı. Bu algoritma, arama alanını azaltmak için iki adım 'birleştirme' ve 'budama' kullanır. En sık kullanılan öğe setlerini keşfetmek için yinelemeli bir yaklaşımdır.
Apriori diyor ki:
1. maddenin sık olmama olasılığı şudur:
- P (I)
- P (I + A)
- Bir öğe kümesi minimum destekten daha düşük bir değere sahipse, tüm üst kümeleri de minimum desteğin altına düşer ve bu nedenle göz ardı edilebilir. Bu özelliğe Antimonotone özelliği denir.
- P (I + A)
Veri madenciliğinin Apriori Algoritmasında izlenen adımlar şunlardır:
- Adım Katıl : Bu adım, her bir öğeyi kendisiyle birleştirerek K-öğe kümelerinden (K + 1) öğe kümesi oluşturur.
- Budama Adımı : Bu adım, veritabanındaki her bir öğenin sayısını tarar. Aday öğe minimum desteği karşılamıyorsa, seyrek olarak kabul edilir ve bu nedenle kaldırılır. Bu adım, aday öğe setlerinin boyutunu azaltmak için gerçekleştirilir.
Apriori'de Adımlar
Apriori algoritması, verilen veritabanında en sık kullanılan öğe setini bulmak için izlenecek adımlar dizisidir. Bu veri madenciliği tekniği, en sık öğe kümesi elde edilene kadar birleştirme ve budama adımlarını yinelemeli olarak izler. Problemde minimum bir destek eşiği verilir veya kullanıcı tarafından varsayılır.
# 1) Algoritmanın ilk yinelemesinde, her öğe 1 öğe kümesi adayı olarak alınır. Algoritma, her bir öğenin oluşumunu sayacaktır.
#iki) Minimum destek olsun, min_sup (örneğin 2). Oluşumu minimum suportu tatmin eden 1-öğe kümeleri belirlenir. Yalnızca min_sup değerine eşit veya daha fazla sayılan adaylar bir sonraki yineleme için öne alınır ve diğerleri budanır.
# 3) Ardından, min_sup ile 2 öğe setli sık öğeler keşfedilir. Bunun için birleştirme adımında, öğeler kendisiyle birleştirilerek 2'li bir grup oluşturularak 2 öğe kümesi oluşturulur.
# 4) 2 maddeli adaylar min-sup eşik değeri kullanılarak budanmıştır. Şimdi tabloda yalnızca min-sup ile 2 öğe kümesi olacaktır.
# 5) Bir sonraki yineleme, birleştirme ve eritme adımını kullanarak 3 öğe kümesi oluşturacaktır. Bu yineleme, 3-öğe kümesinin alt kümelerinin, yani her grubun 2-öğe kümesi alt kümelerinin min_sup içine düştüğü antimonotone özelliğini takip edecektir. Tüm 2 öğeli alt kümeler sıksa, üst küme sık sık olacak, aksi takdirde budanmış olur.
# 6) Sonraki adım, 3-itemet'e kendisiyle katılarak 4-itemet oluşturmayı ve altkümesi min_sup kriterlerini karşılamıyorsa budamayı takip edecektir. En sık öğe kümesi elde edildiğinde algoritma durdurulur.
(resim kaynak )
Apriori Örneği:Destek eşiği =% 50, Güven =% 60
TABLO 1
İşlem | Eşyaların listesi |
---|---|
T1 | I1, I2, I3 |
T2 | I2, I3, I4 |
T3 | I4, I5 |
T4 | I1, I2, I4 |
T5 | I1, I2, I3, I5 |
T6 | I1, I2, I3, I4 |
Çözüm:
Destek eşiği =% 50 => 0.5 * 6 = 3 => min_sup = 3
1. Her Öğenin Sayısı
TABLO 2
Öğe | Miktar |
---|---|
I1 | 4 |
I2 | 5 |
I3 | 4 |
I4 | 4 |
I5 | iki |
iki. Budama Adımı: TABLO 2 I5 öğesinin min_sup = 3'ü karşılamadığını gösterir, bu nedenle silinir, sadece I1, I2, I3, I4 min_sup sayımını karşılar.
TABLO 3
Öğe | Miktar |
---|---|
I1 | 4 |
I2 | 5 |
I3 | 4 |
I4 | 4 |
3. Katılma Adımı: 2-öğe kümesi oluşturun. Nereden TABLO 1 2 öğe kümesinin oluşumlarını öğrenin.
TABLO-4
Öğe | Miktar |
---|---|
I1, I2 | 4 |
I1, I3 | 3 |
I1, I4 | iki |
I2, I3 | 4 |
I2, I4 | 3 |
I3, I4 | iki |
Dört. Budama Adımı: TABLO -4 {I1, I4} ve {I3, I4} öğe kümesinin min_sup ile uyuşmadığını gösterir, dolayısıyla silinir.
en iyi youtube mp3 dönüştürücü indir
TABLO-5
Öğe | Miktar |
---|---|
I1, I2 | 4 |
I1, I3 | 3 |
I2, I3 | 4 |
I2, I4 | 3 |
5. Katıl ve Prune Adımı: 3-öğe kümesi oluşturun. İtibaren TABLO 1 3-öğe kümesinin oluşumlarını bulun. Nereden TABLO-5 min_sup öğesini destekleyen 2 öğe kümesi alt kümelerini bulun.
{I1, I2, I3} öğe kümesi için, {I1, I2}, {I1, I3}, {I2, I3} alt kümelerinin TABLO-5 dolayısıyla {I1, I2, I3} sıktır.
{I1, I2, I4} öğe kümesi için, {I1, I2}, {I1, I4}, {I2, I4}, {I1, I4} alt kümelerinin sık olmadığını görebiliriz, çünkü TABLO-5 dolayısıyla {I1, I2, I4} sık değildir, dolayısıyla silinir.
TABLO-6
Öğe |
---|
I1, I2, I3 |
I1, I2, I4 |
I1, I3, I4 |
I2, I3, I4 |
Yalnızca {I1, I2, I3} sıktır .
6. İlişkilendirme Kuralları Oluşturun: Yukarıda bulunan sık öğeler kümesinden ilişkilendirme şunlar olabilir:
{I1, I2} => {I3}
Güven = destek {I1, I2, I3} / destek {I1, I2} = (3/4) * 100 =% 75
{I1, I3} => {I2}
Güven = destek {I1, I2, I3} / destek {I1, I3} = (3/3) * 100 =% 100
{I2, I3} => {I1}
Güven = destek {I1, I2, I3} / destek {I2, I3} = (3/4) * 100 =% 75
{I1} => {I2, I3}
Güven = destek {I1, I2, I3} / destek {I1} = (3/4) * 100 =% 75
{I2} => {I1, I3}
Güven = destek {I1, I2, I3} / destek {I2 = (3/5) * 100 =% 60
{I3} => {I1, I2}
Güven = destek {I1, I2, I3} / destek {I3} = (3/4) * 100 =% 75
Bu, minimum güven eşiği% 60 ise yukarıdaki tüm ilişkilendirme kurallarının güçlü olduğunu gösterir.
Apriori Algoritması: Sözde Kod
C: K beden için aday eşya seti
L: k boyutunda sık kullanılan öğe kümesi
(resim kaynak )
Avantajları
- Anlaşılması kolay algoritma
- Join ve Prune adımlarının büyük veritabanlarındaki büyük öğe setlerine uygulanması kolaydır
Dezavantajları
- Öğe setleri çok büyükse ve minimum destek çok düşük tutulursa yüksek hesaplama gerektirir.
- Veritabanının tamamının taranması gerekiyor.
Apriori Verimliliğini Artırma Yöntemleri
Algoritmanın verimliliğini artırmak için birçok yöntem mevcuttur.
- Hash Tabanlı Teknik: Bu yöntem, k-öğe kümelerini ve karşılık gelen sayısını oluşturmak için karma tablo adı verilen karma tabanlı bir yapı kullanır. Tabloyu oluşturmak için bir hash işlevi kullanır.
- İşlem Azaltma: Bu yöntem, yinelemelerde taranan işlemlerin sayısını azaltır. Sık kalem içermeyen işlemler işaretlenir veya kaldırılır.
- Bölümleme: Bu yöntem, sık kullanılan öğe setlerini incelemek için yalnızca iki veritabanı taraması gerektirir. Herhangi bir öğe setinin veritabanında potansiyel olarak sık olması için, veritabanının en az bir bölümünde sık olması gerektiğini söylüyor.
- Örnekleme: Bu yöntem, Veritabanı D'den rastgele bir örnek S seçer ve ardından S'de sık kullanılan öğe setini arar. Genel bir sık öğe setini kaybetmek mümkün olabilir. Bu, min_sup değerini düşürerek azaltılabilir.
- Dinamik Öğe Kümesi Sayımı: Bu teknik, veritabanının taranması sırasında veritabanının herhangi bir işaretli başlangıç noktasına yeni aday öğe setleri ekleyebilir.
Apriori Algoritmasının Uygulamaları
Apriori'nin kullanıldığı bazı alanlar:
- Eğitim Alanında: Kabul edilen öğrencilerin veri madenciliğinde ilişkilendirme kurallarının özellikler ve uzmanlıklar yoluyla çıkarılması.
- Tıp alanında: Örneğin, hastanın veritabanının analizi.
- Ormancılıkta: Orman yangını verileri ile orman yangını olasılık ve şiddetinin analizi.
- Apriori, Amazon gibi birçok şirket tarafından Öneri Sistemi ve otomatik tamamlama özelliği için Google tarafından.
Sonuç
Apriori algoritması, veritabanını yalnızca bir kez tarayan verimli bir algoritmadır.
Veritabanındaki öğe setlerinin boyutunu önemli ölçüde düşürerek iyi bir performans sağlar. Böylece veri madenciliği, tüketicilere ve endüstrilere karar verme sürecinde daha iyi yardımcı olur.
Sık Örüntü Büyüme Algoritması hakkında daha fazla bilgi edinmek için yaklaşan eğitimimize göz atın !!
PREV Eğitimi | SONRAKİ Eğitici
Önerilen Kaynaklar
- Veri Madenciliği Teknikleri: Algoritma, Yöntemler ve En İyi Veri Madenciliği Araçları
- Veri Madenciliği: Veri Analizinde Süreç, Teknikler ve Başlıca Sorunlar
- Veri Madenciliği Örnekleri: Veri Madenciliğinin En Yaygın Uygulamaları 2021
- Veri Madenciliğinde Karar Ağacı Algoritma Örnekleri
- Veri Madenciliği Süreci: Modeller, Süreç Adımları ve İlgili Zorluklar
- Veri Madenciliği - Makine Öğrenimi - Yapay Zeka - Derin Öğrenme
- En İyi 15 Ücretsiz Veri Madenciliği Aracı: En Kapsamlı Liste
- Kullanıcı Tanımlı Değişkenleri Kullanarak JMeter Veri Parametrelendirmesi