weka explorer visualization
Bu öğreticide, WEKA Explorer kullanılarak Veri Görselleştirme, K-ortalama Küme Analizi ve İlişkilendirme Kural Madenciliği'nin nasıl gerçekleştirileceği açıklanmaktadır:
İçinde Önceki eğitim , Karar Ağacı için WEKA Veri Kümesi, Sınıflandırıcı ve J48 Algoritmasını öğrendik.
Daha önce gördüğümüz gibi WEKA, birçok araştırmacı ve öğrenci tarafından birçok makine öğrenimi görevini gerçekleştirmek için kullanılan açık kaynaklı bir veri madenciliği aracıdır. Kullanıcılar ayrıca makine öğrenme yöntemlerini oluşturabilir ve WEKA dizininde sağlanan örnek veri kümeleri üzerinde deneyler gerçekleştirebilir.
WEKA'da veri görselleştirme, örnek veri kümeleri veya .arff, .csv formatında kullanıcı tarafından yapılmış veri kümeleri kullanılarak gerçekleştirilebilir.
=> Eksiksiz Makine Öğrenimi Eğitim Serisini Okuyun
İlişkilendirme Kural Madenciliği, Apriori algoritması kullanılarak gerçekleştirilir. Sık desen madenciliği yapmak için WEKA tarafından sağlanan tek algoritmadır.
WEKA'da FartherestFirst, FilteredCluster ve HierachicalCluster gibi Küme Analizi yapmak için birçok algoritma bulunmaktadır. Bunların dışında, en basit kümeleme yöntemi olan SimpleKmeans'ı kullanacağız.
Ne öğreneceksin:
- WEKA Explorer Kullanarak İlişkilendirme Kural Madenciliği
- K-WEKA Explorer Kullanan Algoritma anlamına gelir
- WEKA Kullanarak Veri Görselleştirmeyi Uygulayın
- Sonuç
WEKA Explorer Kullanarak İlişkilendirme Kural Madenciliği
WEKA Explorer kullanarak Association Rule Mining'in nasıl uygulanacağını görelim.
Dernek Kural Madenciliği
1994 yılında Srikant ve Aggarwal tarafından geliştirilmiş ve tasarlanmıştır. Verilerdeki örüntüleri bulmamıza yardımcı olur. Birlikte ortaya çıkan özellikleri veya ilişkilendirilen özellikleri bulan bir veri madenciliği sürecidir.
en iyi sıcaklık izleme yazılımı Windows 10
İlişkilendirme kurallarının uygulamaları arasında, tek bir sepette satın alınan ürünleri analiz etmek için Pazar Sepeti Analizi; Cross Marketing, araç satıcısı ve Petrol Şirketi gibi ticari ürün değerimizi artıran diğer işletmelerle çalışmak.
Büyük bir veri kümesindeki sık öğe kümeleri bulunduktan sonra ilişkilendirme kuralları çıkarılır. Bu veri kümeleri, Apriori ve FP Growth gibi madencilik algoritmaları kullanılarak bulunur. Sıkça kullanılan Itemset madenciliği, verileri destek ve güven önlemleri kullanarak madencilik yapar.
Destek ve Güven
Destek Ekmek ve tereyağı gibi tek bir işlemde iki ürünün birlikte satın alınma olasılığını ölçer. Güven dizüstü bilgisayar ve bilgisayar antivirüs yazılımı gibi iki öğenin birbiri ardına satın alınma olasılığını ancak birlikte satın alınmadığını belirten bir ölçüdür.
Minimum eşik desteği ve minimum eşik güven değerlerinin işlemleri azalttığı ve en sık meydana gelen kalem setini bulduğu varsayılır.
WEKA Explorer Kullanarak Uygulama
WEKA, Apriori algoritması ilişki kurallarını öğrenmek için. Apriori yalnızca ikili özniteliklerle, kategorik verilerle (nominal veriler) çalışır, dolayısıyla veri kümesi herhangi bir sayısal değer içeriyorsa bunları önce nominal değere dönüştürür.
Apriori, minimum destek ve güven eşiği ile tüm kuralları bulur.
Aşağıdaki adımları takip et:
# 1) Bir excel dosyası veri kümesi hazırlayın ve ' apriori.csv '.
#iki) WEKA Explorer'ı açın ve Preprocess sekmesinin altında “apriori.csv” dosyasını seçin.
# 3) Dosya şimdi WEKA Explorer'a yüklenir.
# 4) Aşağıdaki resimde gösterildiği gibi, onay kutusunu işaretleyip Kaldır'a tıklayarak İşlem alanını kaldırın. Şimdi dosyayı 'aprioritest.arff' olarak kaydedin.
# 5) İlişkilendirme sekmesine gidin. Apriori kuralları buradan çıkarılabilir.
# 6) Destek ve güven parametrelerini ayarlamak için Seç'e tıklayın. Burada ayarlanabilen çeşitli parametreler şunlardır:
- ' lowerBoundMinSupport ' ve ' UpperBoundMinSupport ', Bu, algoritmamızın çalışacağı destek seviyesi aralığıdır.
- Delta destekteki artıştır. Bu durumda 0.05, 0.1'den 1'e kadar olan destek artışıdır.
- metricType 'Güven', 'Arttırma', 'Kaldıraç' ve 'Mahkumiyet' olabilir. Bu bize ilişkilendirme kurallarını nasıl sıraladığımızı anlatır. Genel olarak Güven seçilir.
- numRules çıkarılacak ilişkilendirme kurallarının sayısını söyler. Varsayılan olarak 10 olarak ayarlanmıştır.
- önem düzeyi güven seviyesinin önemini gösterir.
# 7) Seç düğmesinin yanındaki Metin Kutusu, ' Apriori-N-10-T-0-C-0.9-D 0.05-U1.0-M0.1-S-1.0-c-1 ', Ayarlar sekmesindeki algoritma için belirlenen özet kuralları gösterir.
# 8) Başlat Düğmesine tıklayın. İlişkilendirme kuralları sağ panelde oluşturulur. Bu panel 2 bölümden oluşmaktadır. Birincisi, algoritma, çalıştırmak için seçilen veri kümesidir. İkinci bölüm Apriori Bilgilerini gösterir.
Sağ paneldeki çalıştırma bilgilerini anlayalım:
- Şema bizi Apriori kullandı.
- Örnekler ve Nitelikler: 6 örneği ve 4 özniteliği vardır.
- Minimum destek ve minimum güven sırasıyla 0,4 ve 0,9'dur. 6 örnekten 2 örnek, minimum destekle bulunur,
- Madencilik birliği kuralı için gerçekleştirilen döngü sayısı 12'dir.
- Oluşturulan büyük kalem setleri 3: L (1), L (2), L (3) 'dür ancak bunlar, boyutları sırasıyla 7, 11 ve 5 olduğu için sıralanmamıştır.
- Bulunan kurallar sıralanır. Bu kuralların yorumu şu şekildedir:
- Tereyağı T 4 => Bira F 4: 6'dan 4'ü, tereyağı için doğru, biranın yanlış olduğunu gösterir. Bu güçlü bir ilişki sağlar. Güven seviyesi 0.1'dir.
Çıktı
İlişkilendirme kuralları, Apriori Algoritması ile WEKA Explorer kullanılarak çıkarılabilir. Bu algoritma, WEKA dizininde bulunan her tür veri kümesine ve ayrıca kullanıcı tarafından yapılan diğer veri kümelerine uygulanabilir. Destek ve güven ve diğer parametreler, algoritmanın Ayar penceresi kullanılarak ayarlanabilir.
K-WEKA Explorer Kullanan Algoritma anlamına gelir
WEKA Explorer kullanarak K-ortalama algoritmasını kümeleme için nasıl uygulayacağımızı görelim.
Küme Analizi Nedir
Kümeleme Algoritmaları, benzer özelliklere sahip veri grupları oluşturmak için kullanılan denetimsiz öğrenme algoritmalarıdır. Benzerlikleri olan nesneleri gruplar ve alt gruplar halinde toplayarak veri kümelerinin bölümlenmesine yol açar. Küme analizi, veri kümelerinin alt kümelere bölünmesi sürecidir. Bu alt kümeler kümeler olarak adlandırılır ve kümeler kümesi kümeleme olarak adlandırılır.
Küme Analizi, benzer beğenilere sahip müşterilerin gruplanması gibi iş zekasında görüntü tanıma, örüntü tanıma, web araması ve güvenlik gibi birçok uygulamada kullanılmaktadır.
K-demektir Kümeleme Nedir
K, kümelemenin en basit kümeleme algoritması olduğu anlamına gelir. K-Kümeleme algoritmasında, veri kümesi K kümelerine bölünür. Bölümlerin kalitesini bulmak için bir amaç işlevi kullanılır, böylece benzer nesneler bir kümede bulunur ve diğer gruplarda benzer nesneler olur.
Bu yöntemde, bir kümenin ağırlık merkezinin bir kümeyi temsil ettiği bulunmuştur. Ağırlık merkezi, küme içindeki noktaların ortalama değeri olarak hesaplanan kümenin merkezi olarak alınır. Şimdi, nokta ve merkez arasındaki Öklid mesafesini ölçerek kümelenmenin kalitesi bulunur. Bu mesafe maksimum olmalıdır.
K-Ortalama Kümeleme Algoritması Nasıl Çalışır?
Aşama 1: Bir K değeri seçin, burada K küme sayısıdır.
Adım 2: Her noktayı yineleyin ve ona en yakın merkeze sahip olan kümeyi atayın. Her öğe yinelendiğinde, tüm kümelerin ağırlık merkezini hesaplayın.
Aşama 3: Veri kümesindeki her öğeyi yineleyin ve her kümenin noktası ile ağırlık merkezi arasındaki Öklid mesafesini hesaplayın. Kümede kendisine en yakın olmayan herhangi bir nokta varsa, o noktayı en yakın kümeye yeniden atayın ve bunu veri kümesindeki tüm noktalara yaptıktan sonra, her kümenin merkezini tekrar hesaplayın.
4. Adım: Ardışık iki yineleme arasında gerçekleşen yeni atama olmayana kadar 3. Adımı gerçekleştirin.
K-WEKA Kullanarak Kümeleme Uygulaması anlamına gelir
Weka kullanarak uygulama adımları aşağıdaki gibidir:
# 1) WEKA Gezgini'ni açın ve Ön İşlem sekmesindeki Dosya Aç'a tıklayın. Veri kümesini seçin 'vot.arff'.
#iki) 'Küme' sekmesine gidin ve 'Seç' düğmesine tıklayın. Kümeleme yöntemini 'SimpleKMeans' olarak seçin.
# 3) Ayarlar'ı seçin ve ardından aşağıdaki alanları ayarlayın:
- Öklid olarak uzaklık işlevi
- Küme sayısı 6'dır. Küme sayısı arttıkça, hata karelerinin toplamı azalacaktır.
- 10. of.
Tamam'a tıklayın ve algoritmayı başlatın.
# 4) Sol panelde Başlat'a tıklayın. Algoritma, sonuçları beyaz ekranda görüntüler. Çalıştırma bilgilerini analiz edelim:
- Şema, İlişki, Örnekler ve Nitelikler, veri kümesinin özelliğini ve kullanılan kümeleme yöntemini açıklar. Bu durumda, vot.arff veri kümesinin 435 örneği ve 13 özelliği vardır.
- Kmeans kümesi ile yineleme sayısı 5'tir.
- Hatanın karesi toplamı 1098.0'dır. Bu hata, küme sayısındaki artışla azalacaktır.
- Ağırlık merkezlerine sahip 5 nihai küme bir tablo şeklinde temsil edilir. Bizim durumumuzda, kümelerin Centroidleri 168.0, 47.0, 37.0, 122.0.33.0 ve 28.0'dır.
- Kümelenmiş örnekler, kümeye düşen toplam örneklerin sayısını ve yüzdesini temsil eder.
# 5) 'Sınıfları Kümelere Değerlendirmeler' i seçin ve Başlat'a tıklayın.
Algoritma, sınıf etiketini kümeye atayacaktır. Küme 0 cumhuriyetçiyi, Küme 3 ise demokratları temsil ediyor. Yanlış kümelenmiş örnek% 39,77'dir ve bu, önemsiz öznitelikler göz ardı edilerek azaltılabilir.
# 6) Önemsiz nitelikleri görmezden gelmek. 'Öznitelikleri yoksay' düğmesine tıklayın ve kaldırılacak öznitelikleri seçin.
# 7) Kümeleme algoritması sonucunu görselleştirmek için 'Görselleştir' sekmesini kullanın. Sekmeye gidin ve herhangi bir kutuyu tıklayın. Jitter'i maksimuma taşıyın.
- X ekseni ve Y ekseni, niteliği temsil eder.
- Mavi renk, sınıf etiketi demokratını ve kırmızı renk, sınıf etiketi cumhuriyetçiyi temsil eder.
- Jitter, Kümeleri görüntülemek için kullanılır.
- X koordinat özniteliğini değiştirmek ve diğer özniteliklere göre kümelemeyi görüntülemek için pencerenin sağ tarafındaki kutuyu tıklayın.
Çıktı
K, kümelemenin basit bir küme analizi yöntemi olduğu anlamına gelir. Küme sayısı, ayarlar sekmesi kullanılarak ayarlanabilir. Her kümenin ağırlık merkezi, kümeler içindeki tüm noktaların ortalaması olarak hesaplanır. Küme sayısının artmasıyla kare hatalarının toplamı azalır. Küme içindeki nesneler benzer özellikler ve özellikler sergiler. Kümeler, sınıf etiketlerini temsil eder.
WEKA Kullanarak Veri Görselleştirmeyi Uygulayın
Veri goruntuleme
Verileri net bir şekilde anlamak amacıyla verileri grafikler ve çizimlerle temsil etme yöntemi, veri görselleştirmedir.
Verileri temsil etmenin birçok yolu vardır. Bunlardan bazıları şu şekildedir:
# 1) Piksel Odaklı Görselleştirme: Burada pikselin rengi boyut değerini temsil eder. Pikselin rengi, karşılık gelen değerleri temsil eder.
# 2) Geometrik Gösterim: Çok boyutlu veri kümeleri 2B, 3B ve 4B dağılım çizimlerinde temsil edilir.
# 3) Simge Tabanlı Görselleştirme: Veriler, Chernoff'un yüzleri ve çubuk şekilleri kullanılarak temsil edilir. Chernoff'un yüzleri, insan zihninin yüz özelliklerini ve aralarındaki farklılıkları tanıma yeteneğini kullanır. Çubuk figür, çok boyutlu verileri temsil etmek için 5 çubuk figür kullanır.
# 4) Hiyerarşik Veri Görselleştirme: Veri kümeleri, ağaç haritaları kullanılarak temsil edilir. Hiyerarşik verileri bir dizi iç içe üçgen olarak temsil eder.
WEKA Explorer Kullanarak Veri Görselleştirme
WEKA kullanılarak Veri Görselleştirme, IRIS.arff veri kümesinde yapılır.
İlgili adımlar aşağıdaki gibidir:
# 1) Preprocess sekmesine gidin ve IRIS.arff veri kümesini açın.
#iki) Veri kümesinin 4 özniteliği ve 1 sınıf etiketi vardır. Bu veri kümesindeki öznitelikler şunlardır:
- Ayrı uzunluk: Tip-sayısal
- Sepalwidth: Tip-sayısal
- Petalength: Tip sayısal
- Petalwidth: Tip sayısal
- Sınıf: Tip-nominal
# 3) Veri kümesini görselleştirmek için Görselleştir sekmesine gidin. Sekme, öznitelik grafik matrisini gösterir. Veri kümesi özellikleri, örnekler çizilirken x ekseni ve y ekseni üzerinde işaretlenir. X ekseni niteliğine ve y ekseni niteliğine sahip kutu genişletilebilir.
# 4) Büyütmek için arsa kutusuna tıklayın. Örneğin, x: petallength ve y: petalwidth. Sınıf etiketleri farklı renklerle temsil edilir.
- Sınıf etiketi - Iris-setosa: mavi renk
- Sınıf etiketi - Iris-versicolor: kırmızı
- Sınıf etiketi-Iris-virginica-green
Bu renkler değiştirilebilir. Rengi değiştirmek için alttaki sınıf etiketine tıklayın, bir renk penceresi görünecektir.
# 5) Grafikte 'x' ile temsil edilen örneğe tıklayın. Örnek ayrıntılarını verecektir. Örneğin:
- Örnek numarası: 91
- Ayrık uzunluk: 5.5
- Sepalwidth: 2.6
- Petalength: 4.4
- Petalwidth: 1.2
- Sınıf: Iris-versicolor
Grafikteki bazı noktalar diğer noktalara göre daha koyu görünüyor. Bu noktalar, aynı sınıf etiketine sahip 2 veya daha fazla örneği ve petalwidth ve petallength gibi grafik üzerinde çizilen aynı öznitelik değerlerini temsil eder.
Aşağıdaki şekil, 2 durum bilgisine sahip bir noktayı temsil etmektedir.
# 6) X ve Y ekseni nitelikleri, Görselleştir grafiğinde sağ panelden değiştirilebilir. Kullanıcı farklı grafikleri görebilir.
# 7) Jitter, grafiğe rastgelelik eklemek için kullanılır. Bazen noktalar çakışır. Titreşim ile daha koyu noktalar birden çok örneği temsil eder.
# 8) Veri kümesinin daha net bir görünümünü elde etmek ve aykırı değerleri kaldırmak için kullanıcı açılır menüden bir örnek seçebilir. 'Örnek seç' açılır menüsünü tıklayın. 'Dikdörtgen' seçin. Bununla, kullanıcı bir dikdörtgen çizerek çizimdeki noktaları seçebilecek.
# 9) 'Gönder' e tıklayın. Yalnızca seçilen veri kümesi noktaları görüntülenecek ve diğer noktalar grafikten çıkarılacaktır.
Aşağıdaki şekil, seçilen dikdörtgen şeklin noktalarını göstermektedir. Çizim, yalnızca 3 sınıf etiketli noktaları temsil eder. Kullanıcı, veri setini kaydetmek için 'Kaydet' e veya başka bir örnek seçmek için 'Sıfırla' yı tıklayabilir. Veri kümesi, ayrı bir .ARFF dosyasına kaydedilecektir.
Çıktı:
WEKA kullanarak veri görselleştirme, kutu grafiği yardımıyla basitleştirilmiştir. Kullanıcı herhangi bir ayrıntı düzeyini görüntüleyebilir. Öznitelikler X ekseni ve y ekseninde çizilirken örnekler X ve Y eksenine göre çizilir. Bazı noktalar, koyu renkli noktalarla temsil edilen birden çok örneği temsil eder.
Sonuç
WEKA, birçok veri madenciliği görevini gerçekleştirmek ve veri kümeleri üzerinde yeni yöntemler denemek için verimli bir veri madenciliği aracıdır. WEKA, Yeni Zelanda'daki Waikato Üniversitesi Bilgisayar Bilimleri Bölümü tarafından geliştirilmiştir.
bir bin dosyası nasıl açılır pencereler 10
Bugünün dünyası, süpermarkette alışveriş yapmaktan evimizdeki güvenlik kameralarına kadar verilerle boğulmuş durumda. Veri madenciliği bu ham verileri kullanır, tahmin yapmak için bilgiye dönüştürür. Apriori Algoritmasının yardımıyla WEKA, veri kümesindeki madencilik birliği kurallarına yardımcı olur. Apriori, işlemdeki bir öğe setinin oluşum sayısını sayan sık kullanılan bir desen madenciliği algoritmasıdır.
Küme Analizi, benzer özellikleri temsil eden veri kümelerini bulmak için bir tekniktir. WEKA, basit araçların çok kullanıldığı küme analizi yapmak için birçok algoritma sağlar.
WEKA'da Veri Görselleştirme, WEKA dizinindeki tüm veri kümelerinde gerçekleştirilebilir. Ham veri kümesinin yanı sıra sınıflandırma, kümeleme ve ilişkilendirme gibi diğer algoritmaların sonuçta ortaya çıkan diğer veri kümeleri WEKA kullanılarak görselleştirilebilir.
=> Özel Makine Öğrenimi Serisi İçin Burayı Ziyaret Edin
Önerilen Kaynaklar
- Weka Eğitimi - Weka Aracı Nasıl İndirilir, Kurulur ve Kullanılır
- Karar Ağacı İçin WEKA Veri Kümesi, Sınıflandırıcı ve J48 Algoritması
- 2021'de EN İYİ 15 Veri Görselleştirme Araçları ve Yazılımı
- D3.js Eğitimi - Yeni Başlayanlar İçin Veri Görselleştirme Çerçevesi
- D3.js Veri Görselleştirme Eğitimi - Şekiller, Grafik, Animasyon
- Yazılım Testinin 7 Prensibi: Kusur Kümeleme ve Pareto Prensibi
- Veri Madenciliği: Veri Analizinde Süreç, Teknikler ve Başlıca Sorunlar
- Veri Madenciliği Teknikleri: Algoritma, Yöntemler ve En İyi Veri Madenciliği Araçları