data mining techniques
Veri Madenciliği Teknikleri Üzerine Bu Derinlemesine Eğitim, Algoritmaları, Veri Madenciliği Araçlarını ve Yararlı Verileri Çıkarma Yöntemlerini Açıklıyor:
Bunda Herkes İçin Derinlemesine Veri Madenciliği Eğitimi Eğitimleri , Veri Madenciliği hakkındaki her şeyi önceki eğitimimizde inceledik.
Bu eğitimde, Veri Çıkarma için kullanılan çeşitli teknikler hakkında bilgi edineceğiz. Veri madenciliğinin büyük miktardaki veriden yararlı bilgiler elde etme kavramı olduğunu bildiğimiz için, yararlı bilgiler elde etmek için büyük veri kümelerine bazı teknikler ve yöntemler uygulanır.
Bu teknikler temelde veri setlerine uygulanan yöntemler ve algoritmalar biçimindedir. Veri madenciliği tekniklerinden bazıları şunlardır: Madencilik Sık Kalıpları, İlişkilendirmeleri ve İlişkileri, Sınıflandırmalar, Kümeleme, Aykırı Değerlerin Tespiti ve İstatistiksel, Görsel ve Sesli veri madenciliği gibi bazı gelişmiş teknikler.
Veri madenciliği teknikleri için genellikle ilişkisel veritabanları, işlem veritabanları ve veri ambarları kullanılır. Bununla birlikte, zaman serileri, sembolik diziler ve biyolojik sıralı veriler gibi karmaşık veriler için bazı gelişmiş madencilik teknikleri de vardır.
Ne öğreneceksin:
- Veri Madenciliği Tekniklerinin Amacı
- Veri Çıkarma Tekniklerinin Listesi
- En İyi Veri Madenciliği Algoritmaları
- Veri Çıkarma Yöntemleri
- En İyi Veri Madenciliği Araçları
- Sonuç
- Önerilen Kaynaklar
Veri Madenciliği Tekniklerinin Amacı
Her gün büyük miktarda veri depolanırken, işletmeler artık trendleri bunlardan öğrenmekle ilgileniyor. Veri çıkarma teknikleri, ham verilerin faydalı bilgiye dönüştürülmesine yardımcı olur. Büyük miktarda veriyi çıkarmak için, bir insanın büyük hacimli verileri manuel olarak geçmesi imkansız olduğundan, yazılıma ihtiyaç vardır.
Bir veri madenciliği yazılımı, büyük veri tabanlarındaki farklı öğeler arasındaki ilişkiyi analiz ederek karar verme sürecinde yardımcı olabilir, müşteriler hakkında daha fazla bilgi edinebilir, pazarlama stratejileri oluşturabilir, satışları artırabilir ve maliyetleri azaltabilir.
Veri Çıkarma Tekniklerinin Listesi
Uygulanacak veri madenciliği tekniği Veri analizimizin perspektifine bağlıdır.
Öyleyse, veri çıkarmanın farklı şekillerde nasıl gerçekleştirilebileceğine dair çeşitli teknikleri tartışalım:
# 1) Sık Model Madenciliği / İlişki Analizi
Bu tür bir veri madenciliği tekniği, verilen veri kümesinde yinelenen ilişkileri arar. Veritabanındaki farklı öğeler arasında ilginç ilişkiler ve korelasyonlar arayacak ve bir model belirleyecektir.
Bir örnek, 'Alışveriş Sepeti Analizi' bu türden bir şey olabilir: 'Müşterilerin mağazada birlikte satın alma olasılığının yüksek olduğu ürünleri bulmak?' ekmek ve tereyağı gibi.
Uygulama: Ürünlerin mağaza raflarına yerleştirilmesi, pazarlanması, çapraz satışının tasarlanması.
youtube'u mp3'e dönüştürmenin en kolay yolu
Desenler, ilişkilendirme kuralları şeklinde temsil edilebilir. İlişkilendirme kuralı, destek ve güvenin, ilişkili öğelerin kullanışlılığını bulmak için parametreler olduğunu söyler. Tek seferde her iki ürünün birlikte satın alındığı işlemler, destek olarak bilinir.
Müşterilerin hem ürünü hem de peş peşe aldığı işlemler güvendir. Mayınlı model, eğer bir minimum destek eşiği ve minimum güven eşiği değer. Eşik değerlere alan uzmanları tarafından karar verilir.
Ekmek => tereyağı (destek =% 2, güven-% 60)
Yukarıdaki ifade, bir ilişkilendirme kuralı örneğidir. Bu, birlikte ekmek ve tereyağı satın alan% 2'lik bir işlem olduğu ve tereyağının yanı sıra ekmek satın alan müşterilerin% 60'ı olduğu anlamına gelir.
İlişkilendirme Analizini Uygulama Adımları:
- Sık kullanılan öğe setlerini bulmak. Öğe kümesi, bir dizi öğe anlamına gelir. K öğe içeren bir öğe kümesi, bir k öğe kümesidir. Bir öğe setinin sıklığı, öğe setini içeren işlemlerin sayısıdır.
- Sık kullanılan öğe kümelerinden güçlü ilişki kuralları oluşturma. Güçlü ilişki kuralları ile, minimum eşik desteğinin ve güvenin karşılandığını kastediyoruz.
Apriori Algoritması, Desen Büyüme Yaklaşımı ve Dikey Veri Formatını Kullanarak Madencilik gibi çeşitli sık kullanılan öğe seti madenciliği yöntemleri vardır. Bu teknik genellikle Pazar Sepeti Analizi olarak bilinir.
# 2) Korelasyon Analizi
Korelasyon Analizi, İlişkilendirme Kurallarının yalnızca bir uzantısıdır. Bazen destek ve güven parametreleri, kullanıcılara yine de ilgi çekici olmayan desenler verebilir.
Yukarıdaki ifadeyi destekleyen bir örnek şu olabilir: analiz edilen 1000 işlemden 600'ü sadece ekmek içeriyordu, 750'si tereyağı ve 400'ü hem ekmek hem de tereyağı içeriyordu. İlişkilendirme kuralı çalıştırması için minimum desteğin% 30 ve minimum güvenin% 60 olduğunu varsayalım.
400/1000 =% 40 destek değeri ve = 400/600 =% 66 güven değeri eşiği karşılar. Ancak tereyağı satın alma olasılığının% 75 yani% 66'dan fazla olduğunu görüyoruz. Bu, ekmek ve tereyağı arasında negatif korelasyon olduğu anlamına gelir, çünkü birinin satın alınması diğerinin satın alınmasında bir azalmaya yol açacaktır. Sonuçlar aldatıcıdır.
Yukarıdaki örnekten, destek ve güven başka bir ilginçlik ölçüsü ile desteklenmiştir, yani ilginç desenler madenciliğine yardımcı olacak korelasyon analizi.
A => B (destek, güven, korelasyon).
Korelasyon kuralı, A ve B öğe kümeleri arasındaki destek, güven ve korelasyon ile ölçülür. Korelasyon, Lift ve Ki-Kare ile ölçülür.
(i) Kaldırma: Kelimenin kendisinin de söylediği gibi, Artış, bir öğe setinin varlığının diğer öğe setlerinin oluşumunu ne derece artırdığını temsil eder.
A ve B'nin oluşumu arasındaki artış şu şekilde ölçülebilir:
kablosuz yönlendiricideki güvenlik anahtarı nedir
Kaldırma (A, B) = P (A U B) / P (A). P (B).
Öyleyse<1, then A and B are negatively correlated.
> 1 ise. O zaman A ve B pozitif olarak ilişkilendirilir; bu, birinin meydana gelmesi, diğerinin meydana geldiği anlamına gelir.
Eğer = 1 ise, aralarında bir ilişki yoktur.
(ii) Ki-Kare: Bu başka bir korelasyon ölçüsüdür. Bir yuva (A ve B çifti) için gözlemlenen ve beklenen değer arasındaki kare farkın beklenen değere bölünmesini ölçer.
> 1 ise, negatif olarak ilişkilidir.
# 3) Sınıflandırma
Sınıflandırma, önemli veri sınıflarının modellerini oluşturmaya yardımcı olur. Sınıf etiketlerini tahmin etmek için bir model veya bir sınıflandırıcı oluşturulur. Etiketler, 'evet' veya 'hayır', 'güvenli' veya 'riskli' gibi ayrı değerlere sahip tanımlanmış sınıflardır. Etiket sınıfı zaten bilindiği için bu bir tür denetimli öğrenmedir.
Veri Sınıflandırma iki aşamalı bir süreçtir:
- Öğrenme adımı: Model burada oluşturulmuştur. Verilere, sağlanan bir sınıf etiketi ile analiz etmek için önceden tanımlanmış bir algoritma uygulanır ve sınıflandırma kuralları oluşturulur.
- Sınıflandırma Aşaması: Model, verilen veriler için sınıf etiketlerini tahmin etmek için kullanılır. Sınıflandırma kurallarının doğruluğu, doğru bulunursa yeni veri gruplarının sınıflandırılması için kullanılan test verileriyle tahmin edilir.
Öğe kümesindeki öğeler, sınıf etiketi düzeyindeki işlevleri tahmin etmek için hedef kategorilere atanacaktır.
Uygulama: Bankalar, kredi başvuranlarını düşük, orta veya yüksek riskli olarak belirleyecek, işletmeler yaş grubu sınıflandırmasına göre pazarlama kampanyaları tasarlayacak.
# 4) Karar Ağacı Oluşturma
Karar Ağaçları İndüksiyon yöntemi, Sınıflandırma Analizi kapsamına girer. Karar ağacı, anlaşılması kolay, basit ve hızlı olan ağaç benzeri bir yapıdır. Bunda, yaprak olmayan her düğüm, bir öznitelik üzerindeki bir testi temsil eder ve her dal, testin sonucunu temsil eder ve yaprak düğüm, sınıf etiketini temsil eder.
Bir demetteki öznitelik değerleri, kökten yaprak düğüme kadar karar ağacına karşı test edilir. Karar ağaçları, herhangi bir alan bilgisi gerektirmediğinden popülerdir. Bunlar çok boyutlu verileri temsil edebilir. Karar ağaçları kolaylıkla sınıflandırma kurallarına dönüştürülebilir.
Uygulama: Karar ağaçları tıpta, imalatta, üretimde, astronomi vb. Alanlarda oluşturulur. Aşağıda bir örnek görülebilir:
# 5) Bayes Sınıflandırması
Bayes Sınıflandırması, başka bir Sınıflandırma Analizi yöntemidir. Bayes Sınıflandırıcıları, belirli bir demetin belirli bir sınıfa ait olma olasılığını tahmin eder. Olasılık ve karar teorisine dayanan Bayes teoremine dayanmaktadır.
Bayes Sınıflandırması, karar verme süreci için son olasılık ve önceki olasılık üzerine çalışır. Arka olasılıkla, hipotez verilen bilgilerden yapılır, yani öznitelik değerleri bilinirken, önceki olasılık için hipotezler öznitelik değerlerine bakılmaksızın verilir.
# 6) Kümeleme Analizi
Bir veri kümesini kümelere veya nesne gruplarına bölme tekniğidir. Kümeleme, algoritmalar kullanılarak yapılır. Etiket bilgisi bilinmediği için denetimsiz bir öğrenme türüdür. Kümeleme yöntemleri birbirine benzer veya farklı olan verileri tespit eder ve özelliklerin analizi yapılır.
Küme analizi, karakterizasyon, öznitelik alt küme seçimi, vb. Gibi çeşitli diğer algoritmaları uygulamak için bir ön adım olarak kullanılabilir. Küme Analizi ayrıca, kredi kartı işlemlerinde yüksek alımlar gibi Uç değer tespiti için de kullanılabilir.
Uygulamalar: Görüntü tanıma, web araması ve güvenlik.
# 7) Aykırı Değer Tespiti
Diğer nesnelerden istisnai davranışa sahip olan veri nesnelerini bulma sürecine aykırı değer tespiti denir. Aykırı değer tespiti ve küme analizi birbiriyle ilişkilidir. Aykırı değerler, istatistiksel, yakınlık tabanlı, kümeleme tabanlı ve sınıflandırma tabanlı olarak kategorize edilir.
Farklı tipte aykırı değerler vardır, bunlardan bazıları:
- Küresel Aykırı Değer: Veri nesnesi, veri kümesinin geri kalanından önemli ölçüde saptı.
- Bağlamsal Aykırı Değer: Gün, saat ve konum gibi belirli faktörlere bağlıdır. Bir veri nesnesi, bir bağlama göre önemli ölçüde saparsa.
- Toplu Aykırı Değer: Bir grup veri nesnesi, tüm veri kümesinden farklı bir davranışa sahip olduğunda.
Uygulama: Kredi kartı dolandırıcılık risklerinin tespiti, yenilik tespiti vb.
# 8) Sıralı Modeller
Bu tür veri madenciliğinde bir eğilim veya bazı tutarlı modeller tanınır. Müşterinin satın alma davranışını anlamak ve sıralı modeller mağazalar tarafından ürünlerini raflarda sergilemek için kullanılır.
Uygulama: A öğesini satın aldığınızda, B Öğesinin genellikle geçmiş satın alma geçmişine bakarak A Öğesi ile satın alındığını gösteren e-ticaret örneği.
# 9) Regresyon Analizi
Bu tür analiz denetlenir ve farklı ilişkiler arasındaki hangi öğe setlerinin birbiriyle ilişkili veya birbirinden bağımsız olduğunu belirler. Satışları, kârı, sıcaklığı, tahmini insan davranışını vb. Tahmin edebilir. Zaten bilinen bir veri seti değerine sahiptir.
Bir girdi sağlandığında, regresyon algoritması girişi ve beklenen değeri karşılaştırır ve doğru sonuca ulaşmak için hata hesaplanır.
Uygulama: Pazarlama ve Ürün Geliştirme Çalışmaları karşılaştırması.
En İyi Veri Madenciliği Algoritmaları
Veri Madenciliği Teknikleri, arkasındaki algoritmalar aracılığıyla uygulanır. Bu algoritmalar, veri çıkarma yazılımı üzerinde çalışır ve iş ihtiyacına göre uygulanır.
Veri setlerini analiz etmek için kuruluşlar tarafından yaygın olarak kullanılan algoritmalardan bazıları aşağıda tanımlanmıştır:
bulut bilişim sağlayıcıları, hizmetlerini şu şekilde sunar:
- K-anlamı: Bir grup benzer öğenin bir arada kümelendiği popüler bir küme analizi tekniğidir.
- Apriori Algoritması: Sıklıkla kullanılan bir öğe seti madenciliği tekniğidir ve işlem veritabanlarında ilişkilendirme kuralları uygulanır. Sık kullanılan öğe setlerini algılar ve genel eğilimleri vurgular.
- K En Yakın Komşu: Bu yöntem, sınıflandırma ve regresyon analizi için kullanılır. En yakın komşu, eğitim verilerini depoladığı ve yeni bir etiketlenmemiş veri geldiğinde, giriş verilerini sınıflandıracağı tembel öğrenmedir.
- Bayes gemileri: Her bir veri nesnesi özelliğinin diğerinden bağımsız olduğunu varsayan bir grup basit olasılıklı sınıflandırma algoritmalarıdır. Bayes Teoreminin bir uygulamasıdır.
- AdaBoost: Performansı artırmak için kullanılan bir makine öğrenimi meta algoritmasıdır. Adaboost, gürültülü verilere ve aykırı değerlere duyarlıdır.
Veri Çıkarma Yöntemleri
Karmaşık veri türlerini işlemek için bazı gelişmiş Veri Madenciliği Yöntemleri aşağıda açıklanmıştır.
Günümüz dünyasındaki veriler, basitten karmaşık verilere kadar çeşitli türlerde bulunmaktadır. Zaman Serileri, Çok Boyutlu, Uzamsal ve Çoklu ortam verileri gibi karmaşık veri türlerini araştırmak için gelişmiş algoritmalar ve teknikler gereklidir.
Bazıları aşağıda açıklanmıştır:
- TIKLAYIN: Kümeleri çok boyutlu bir alt uzayda bulan ilk kümeleme yöntemiydi.
- P3C: Orta ila yüksek çok boyutlu veriler için iyi bilinen bir kümeleme yöntemidir.
- GÖL: Orta ve yüksek boyutlu verileri kümelemeyi amaçlayan k-ortalamasına dayalı bir yöntemdir. Algoritma, olası aykırı değerleri kaldırarak verileri k ayrık elemanlar kümesine böler.
- CURLER: Bir korelasyon kümeleme algoritmasıdır, hem doğrusal hem de doğrusal olmayan korelasyonları tespit eder.
En İyi Veri Madenciliği Araçları
Veri Madenciliği Araçları, veri madenciliği yapmak için kullanılan yazılımlardır. Araçlar, arka uçta algoritmalar çalıştırır. Bu araçlar piyasada Açık Kaynak, Özgür Yazılım ve Lisanslı sürüm olarak mevcuttur.
Veri Çıkarma Araçlarından bazıları şunları içerir:
# 1) RapidMiner
RapidMiner, veri hazırlama, makine öğrenimi ve tahmine dayalı model dağıtımını birleştiren analitik ekipleri için açık kaynaklı bir yazılım platformudur. Bu araç, veri madenciliği analizi yapmak ve veri modelleri oluşturmak için kullanılır. Sınıflandırma, kümeleme, ilişki kuralı madenciliği ve regresyon algoritmaları için büyük setlere sahiptir.
# 2) Turuncu
Veri görselleştirme ve analiz paketi içeren açık kaynaklı bir araçtır. Orange, herhangi bir çalışan python ortamında içe aktarılabilir. Yeni araştırmacılar ve küçük projeler için çok uygundur.
# 3) DİL
KEEL (Evrimsel Öğrenmeye Dayalı Bilgi Çıkarma) açık kaynaklıdır ( GPLv3 ) Çok sayıda farklı bilgi veri keşif görevi için kullanılabilen Java yazılım aracı.
# 4) SPSS
IBM SPSS Modeler, IBM'in bir veri madenciliği ve metin analitiği yazılım uygulamasıdır. Tahmine dayalı modeller oluşturmak ve diğer analitik görevleri yürütmek için kullanılır.
# 5) KNIME
Veri Temizleme ve Analiz Paketi, Duyarlılık Analizi ve Sosyal Ağ Analizi alanlarında özel algoritmalar içeren ücretsiz ve açık kaynaklı bir araçtır. KNIME, aynı analizde çeşitli kaynaklardan gelen verileri entegre edebilir. Java, Python ve R Programlama ile bir arayüze sahiptir.
Önemli Soru: Sınıflandırmanın Tahminden farkı nedir?
Sınıflandırma, bir veri grubudur. Sınıflandırma örneği, yaş grubu, tıbbi durum, vb. Temelinde gruplandırmadır. Tahmin, sınıflandırılmış verileri kullanarak bir sonuç çıkarırken.
Bir örnek Tahmine Dayalı Analizin, yaş grubuna, tıbbi bir durum için tedaviye dayalı olarak ilgileri tahmin etmektir. Tahmin, sürekli değerler için Tahmin olarak da bilinir.
Önemli Terim: Öngörücü Veri Madenciliği
Tahmine Dayalı Veri Madenciliği, iş zekası ve diğer verileri kullanarak belirli veri eğilimlerini tahmin etmek veya tahmin etmek için yapılır. İşletmelerin daha iyi analitiğe sahip olmasına ve daha iyi kararlar almasına yardımcı olur. Predictive Analytics, genellikle Predictive Data Mining ile birleştirilir.
Tahmine Dayalı Veri Madenciliği, analiz için ilgili verileri bulur. Tahmine dayalı analitik, sonucu tahmin etmek için verileri kullanır.
Sonuç
Bu eğitimde, kuruluşların ve işletmelerin en yararlı ve ilgili bilgileri bulmasına yardımcı olabilecek çeşitli veri madenciliği tekniklerini tartıştık. Bu bilgiler, işletmelerin buna göre hareket etmesi için müşterilerin davranışlarını tahmin edecek modeller oluşturmak için kullanılır.
Veri madenciliği teknikleri hakkında yukarıda belirtilen tüm bilgileri okuyarak, güvenilirliğini ve fizibilitesini daha iyi belirleyebiliriz. Veri çıkarma teknikleri, verilerle çalışmayı, verileri yeniden biçimlendirmeyi, verilerin yeniden yapılandırılmasını içerir. İhtiyaç duyulan bilginin formatı, yapılacak teknik ve yapılacak analize dayanmaktadır.
Son olarak, tüm teknikler, yöntemler ve veri madenciliği sistemleri yeni yaratıcı yeniliklerin keşfedilmesine yardımcı olur.
PREV Eğitimi | SONRAKİ Eğitici
Önerilen Kaynaklar
- Veri Madenciliği: Veri Analizinde Süreç, Teknikler ve Başlıca Sorunlar
- Karmaşık Tasarımları Yönetmek İçin En İyi 10 Veri Modelleme Aracı
- En İyi 15 Ücretsiz Veri Madenciliği Aracı: En Kapsamlı Liste
- Veri Toplama Stratejileri ile 10'dan Fazla En İyi Veri Toplama Aracı
- Karmaşık Veri Modelleri Oluşturmak için En İyi 10 Veritabanı Tasarım Aracı
- 2021'de Veri İhtiyaçlarınızı Karşılamak İçin 10'dan Fazla En İyi Veri Yönetim Aracı
- Veri Madenciliği - Makine Öğrenimi - Yapay Zeka - Derin Öğrenme
- 2021'de En İyi 14 Test Verisi Yönetim Aracı