complete guide big data analytics
Bu, kullanım durumları, mimarisi, örnekleri ve Büyük Veri ve Veri Bilimi ile karşılaştırması ile Büyük Veri Analitiği için kapsamlı bir kılavuzdur:
Facebook, Google ve Amazon gibi şirketler, müşterilerinin büyük veriden değer elde etme eğilimlerini anlamak için kendi yeni dağıtılmış veri işleme ve analitik paradigmalarını oluşturdukları için büyük veri analitiği ilgi görmüştür.
Bu eğiticide, büyük veri analitiğini açıklıyor ve bunu Büyük Veri ve Veri Bilimi ile karşılaştırıyoruz. İşletmelerin büyük veri stratejilerinde sahip olması gereken gerekli özellikleri ve işe yarayan metodolojiyi ele alacağız. Ayrıca en son trendlerden ve veri analitiğinin bazı kullanım durumlarından da bahsedeceğiz.
Aşağıdaki resimde gösterildiği gibi, Analytics, kişinin BT becerilerini, iş becerilerini ve veri bilimini kullanmasını gerektirir. Büyük veri analitiği, büyük veriden değerlerden yararlanmanın merkezinde yer alır ve bir kuruluş için tüketilebilir içgörülerin elde edilmesine yardımcı olur.
(resim kaynak )
Ne öğreneceksin:
- Büyük Veri Analitiği Nedir
- Sonuç
Büyük Veri Analitiği Nedir
Büyük Veri Analitiği, bir dizi istatistiksel teknik, araç ve analitik prosedürlerinin Büyük Veriye dönüştürülmesiyle ilgilenir.
Önerilen Okuma => Büyük Veriye Giriş
Veriye dayalı karar vermeyi desteklemek için büyük veriden değerli kalıplar ve anlamlı içgörüler elde etmeye yardımcı olan analitiktir. Sosyal medya ve IoT verileri gibi yeni veri kaynaklarının ortaya çıkması nedeniyle büyük veri ve analitik popüler hale geldi.
Bu eğilim, veri madenciliği, temizleme, modelleme ve görselleştirme tekniklerini, araçlarını, teknolojilerini ve süreçlerini kapsayan 'veri bilimi' adı verilen bir uygulama ve çalışma alanına yol açmaktadır.
Büyük Veri - Büyük Veri Analitiği - Veri Bilimi
KİME büyük veri, veri bilimi ve büyük veri analitiği arasında karşılaştırma aşağıdaki tablodan anlaşılabilir.
Temel | Büyük veri | Veri Bilimi | Büyük Veri Analitiği |
---|---|---|---|
Araçlar ve Teknolojiler | Hadoop Ekosistemi, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Veri Bilimi Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Veri Sarmalayıcı, Lumify, HPCC, Qubole, Microsoft HDInsight |
İş rolleri ve becerileri | Depolama altyapısı bakımı, veri işleme ve Hadoop hakkında Bilgi ve diğer araçlarla entegrasyonu. | Veri dönüştürme, Veri Mühendisliği, Veri Düzenleme, Veri Modelleme ve Görselleştirme | İş Zekası ve İleri Analitik, İstatistik, Veri Modelleme ve Makine Öğrenimi, Matematik becerileri, İletişim, Danışmanlık. |
Tanımlamalar | Büyük Veri Mimarı Büyük Veri Geliştirici Büyük Veri Mühendisi | Veri Bilimcisi Makine Öğrenimi Mühendisi | Büyük Veri Analisti İş analisti İş Zekası Mühendisi İş Analitiği Uzmanı Veri Görselleştirme Geliştiricisi Analitik Yöneticisi |
Yaklaşık. USD Bazında Ortalama Yıllık Maaş | 100.000 | 90.000 | 70.000 |
Önerilen okuma = >> Veri Bilimi ve Bilgisayar Bilimi
Her Büyük Veri Analitiği Stratejisinin Sahip Olması Gerekenler
İyi tanımlanmış, entegre edilmiş ve kapsamlı bir strateji, bir organizasyonda değerli veriye dayalı karar almaya katkıda bulunur ve bunu destekler. Bu bölümde, bir büyük veri analitiği stratejisi tanımlarken dikkate alınması gereken en kritik adımları listeledik.
Adım 1: Değerlendirme
Halihazırda iş hedefleriyle uyumlu bir değerlendirme, kilit paydaşları dahil etmeyi, doğru becerilere sahip bir ekip oluşturmayı, politikaları, kişileri, süreci, teknoloji ve veri varlıklarını değerlendirmeyi gerektirir. Gerekirse, değerlendirilen müşterilerin müşterileri bu sürece dahil edilebilir.
2. Adım: Önceliklendirme
Değerlendirmeden sonra, kullanım senaryolarının türetilmesi, büyük veri tahmine dayalı analitik, kuralcı analitik ve bilişsel analitik kullanarak bunlara öncelik verilmesi gerekir. Ayrıca, önceliklendirme matrisi gibi bir araç kullanabilir ve önemli paydaşların geri bildirimleri ve girdilerinin yardımıyla kullanım senaryolarını daha fazla filtreleyebilirsiniz.
3. Adım: Yol Haritası
Bu adımda, zamana bağlı bir yol haritası oluşturup bunu herkes için yayınlamak gerekiyor. Bir yol haritasının karmaşıklıklar, fonlar, kullanım senaryolarının doğasında olan faydaları ve haritası çıkarılmış projelerle ilgili tüm ayrıntıları içermesi gerekir.
Adım 4: Değişiklik Yönetimi
Değişiklik yönetimini uygulamak, birinin veri kullanılabilirliğini, bütünlüğünü, güvenliğini ve kullanılabilirliğini yönetmesini gerektirir. Mevcut herhangi bir veri yönetişimini kullanan etkili bir değişim yönetimi programı, faaliyetleri ve üyeleri sürekli izlemeye dayalı olarak teşvik eder.
Adım 5: Doğru Beceri Seti
Doğru beceri setini belirlemek, sektördeki mevcut eğilimler arasında kuruluşun başarısı için çok önemlidir. Bu nedenle, doğru liderleri takip etmek ve kritik paydaşları eğitmek için eğitim programları getirmek gerekiyor.
6. Adım: Güvenilirlik, Ölçeklenebilirlik ve Güvenlik
Doğru yaklaşım ve etkili büyük veri analitiği stratejisi, veri bilimi ilkelerini içeren yorumlanabilir modellerin etkili kullanımıyla analitik sürecini güvenilir kılar. Bir büyük veri analitiği stratejisinin, sağlam ve sıkı bir şekilde entegre edilmiş bir analitik boru hattı için en başından itibaren güvenlik yönlerini de içermesi gerekir.
Veri Analitiği İçin Veri Hattı ve Süreci
Veri analizi ardışık düzenini planlarken göz önünde bulundurulması gereken üç temel husus vardır. Bunlar aşağıdaki gibidir:
- Giriş: Veri formatı ve işlenecek teknolojinin seçimi, verilerin temelini oluşturan doğasına dayanır. yani. verilerin zaman serisi ve kalite olup olmadığı.
- Çıktı: Konektör seçimi , raporlar ve görselleştirme, son kullanıcıların teknik uzmanlığına ve veri tüketimi gereksinimlerine bağlıdır.
- Ses: Ölçeklendirme çözümleri büyük veri işleme sisteminde aşırı yüklenmeyi önlemek için veri hacmine göre planlanır.
Şimdi, tipik bir süreci ve büyük veri analitiği ardışık düzeninin aşamalarını tartışalım.
1. Aşama: Veri Besleme
Veri Besleme, veri hattındaki ilk ve en önemli adımdır. Verilerin üç yönünü ele alır.
- Veri kaynağı - Büyük veri boru hattı mimarisinin seçimi açısından önemlidir.
- Verinin yapısı - Seri oluşturma, boru hattı boyunca homojen yapıyı korumanın anahtarıdır.
- Verilerin temizliği - Analitik, eksik değerler ve aykırı değerler gibi sorunlar içermeyen veriler kadar iyidir.
2. Aşama: ETL / Depolama
Bir sonraki önemli modül, ETL (Extract Transform Load) gerçekleştirmek için veri depolama araçlarıdır. Uygun bir veri merkezinde veri depolamak,
- Donanım
- Yönetim Uzmanlığı
- Bütçe
(resim kaynak )
Veri merkezlerinde ETL / Depo için bazı zaman test edilmiş araçlar şunlardır:
- Apache Hadoop
- Apache Hive
- Apache Parke
- Presto Sorgu motoru
Google, AWS, Microsoft Azure gibi bulut şirketleri, bu araçları temelde ödeme olarak sağlar ve ilk sermaye harcamalarından tasarruf sağlar.
3. Aşama: Analiz ve Görselleştirme
Hadoop’un hızlı sorgulamayla ilgili sınırlaması dikkate alındığında, sonuçların gerekli görselleştirilmesiyle hızlı ve anlık sorgulamaya olanak tanıyan analiz platformları ve araçlarının kullanılması gerekir.
>> Önerilen Okuma: Büyük Veri Araçları
4. Aşama: İzleme
Görselleştirme araçlarıyla alım, depolama ve analitik için bir altyapı kurduktan sonra, sonraki adım, izlenecek BT ve veri izleme araçlarına sahip olmaktır. Bunlar şunları içerir:
- CPU veya GPU kullanımı
- Bellek ve Kaynak tüketimi
- Ağlar
Dikkate değer bazı araçlar şunlardır:
- Datadog
- Grafana
İzleme araçları, büyük veri analitiği ardışık düzeninde vazgeçilmezdir ve ardışık düzenin kalitesini ve bütünlüğünü izlemeye yardımcı olur.
Büyük Veri Analitiği Mimarisi
Aşağıdaki mimari diyagram, modern teknolojilerin, gerçek zamanlı operasyonlar ve karar verme için birleşik sonuçlar sağlamak üzere Hadoop ve Harita-azaltma işlemi, bellek içi analitik sistemler ve gerçek zamanlı analitik için hem yapılandırılmamış hem de yapılandırılmış veri kaynaklarını nasıl kullandığını göstermektedir.
(resim kaynak )
Veri Analitiğinde Güncel Eğilimler
Bu bölümde, sektördeki büyük veri analitiği eğilimlerini uygularken veya takip ederken aranacak temel hususları listeledik.
# 1) Büyük Veri Kaynakları
Öncelikle üç Büyük Veri kaynağı vardır. Bunlar aşağıda listelenmiştir:
- Sosyal Veriler: Sosyal medya kullanımı nedeniyle oluşturulan veriler. Bu veriler, hisler ve müşterilerin davranışı ve pazarlama analitiğinde faydalı olabilir.
- Makine Verileri: Bu veriler, IoT sensörleri kullanan endüstriyel ekipman ve uygulamalardan elde edilir. Anlamaya yardımcı olur insanların davranış ve şu konularda bilgi sağlar: süreçler .
- İşlem Verileri: Kullanıcıların ödeme emirleri, faturalar, makbuzlar vb. İle ilgili hem çevrimdışı hem de çevrimiçi faaliyetlerinin bir sonucu olarak oluşturulur. Bu tür veri ihtiyaçlarının çoğu ön işleme ve temizlik analitik için kullanılmadan önce.
# 2) SQL / NoSQL Veri depolama
Geleneksel veritabanları veya RDBMS ile karşılaştırıldığında, NoSQL veritabanları, büyük veri analitiği için gereken görevler için daha iyi olduğunu kanıtladı.
NoSQL veritabanları, yapısal olarak yapılandırılmamış verilerle oldukça iyi başa çıkabilir ve pahalı şema değişiklikleri, dikey ölçeklendirme ve ACID özelliklerinin müdahalesi ile sınırlı değildir.
# 3) Tahmine Dayalı Analitik
Predictive Analytics, kuruluşları yeni müşteri yanıtları veya satın almalar ve çapraz satış fırsatları oluşturmaya yönlendiren özelleştirilmiş içgörüler sunar. Kuruluşlar, gelecekteki sonuçları tahmin etmek ve olası sorunları önlemek için ayrı ayrı öğelere ilişkin ayrıntılı düzeylerde tahminler yapmak için tahmine dayalı analitiği kullanıyor. Bu ayrıca tarihsel verilerle birleştirilir ve kuralcı analitiğe dönüştürülür.
Büyük veri tahmine dayalı analitiğin başarıyla kullanıldığı bazı alanlar, iş, çocuk koruma, klinik karar destek sistemleri, portföy tahmini, ekonomi düzeyinde tahminler ve yüklenimdir.
# 4) Derin Öğrenme
Büyük veri, geleneksel bilgi işlem için çok fazladır. Verilerin çeşitliliği ve hacmindeki artışla birlikte geleneksel makine öğrenimi veri analizi tekniklerinin performansta düzleştiği ortaya çıktı.
Analytics, format varyasyonları, yüksek oranda dağıtılmış giriş kaynakları, dengesiz giriş verileri ve hızlı hareket eden akış verileri ile ilgili zorluklarla karşı karşıyadır ve Derin öğrenme algoritmaları bu tür zorluklarla oldukça verimli bir şekilde başa çıkmaktadır.
Derin öğrenme, anlamsal indekslemede, ayrımcı görevler yürütmede, anlamsal görüntüde ve video etiketlemede, sosyal hedeflemede ve ayrıca nesne tanıma, veri etiketleme, bilgi alma ve doğal dil alanlarında hiyerarşik çok seviyeli öğrenme yaklaşımlarında etkili kullanımını bulmuştur. işleme.
# 5) Veri gölleri
Farklı veri kümelerini farklı sistemlerde depolamak ve bunları analitik için geleneksel veri yönetimi yaklaşımlarıyla birleştirmek pahalı ve neredeyse imkansızdır. Bu nedenle, kuruluşlar, eyleme geçirilebilir analitik için verileri ham, yerel biçiminde depolayan Veri gölleri yapıyorlar.
Aşağıdaki görüntü, büyük veri mimarisinde örnek bir veri gölünü göstermektedir.
(resim kaynak )
Büyük Veri Analitiği Kullanım Alanları
Aşağıda bazı yaygın kullanım örneklerini listeledik:
# 1) Müşteri Analitiği
Büyük Veri Analitiği, mikro pazarlama, bire bir pazarlama, daha ince segmentasyon ve bir işletmenin müşterileri için toplu özelleştirme gibi çeşitli amaçlar için kullanışlıdır. İşletmeler, benzer veya farklı bir ürün ve hizmet yelpazesini yükseltmek veya çapraz satmak için ürün ve hizmetlerini müşteri eğilimlerine göre kişiselleştirmek için stratejiler oluşturabilirler.
# 2) Operasyon Analitiği
Operasyon analitiği, mevcut verileri kullanarak ve bunları makine ve IoT verileriyle zenginleştirerek genel karar verme sürecini ve iş sonuçlarını iyileştirmeye yardımcı olur.
Örneğin, Sağlık hizmetlerinde büyük veri analitiği, sağlık hizmeti harcamalarının optimizasyonu, klinik çalışmaların izlenmesini iyileştirme, COVID-19 gibi hastalık salgınlarına verilen yanıtların tahmin edilmesi ve planlanmasıyla ilgili zorluklarla ve yeni fırsatlarla yüzleşmeyi mümkün kılmıştır.
# 3) Dolandırıcılık Önleme
Büyük veri analitiği, özellikle finans ve sigorta sektörlerinde dolandırıcılık girişimlerini tahmin etmeye ve azaltmaya yardımcı olarak büyük bir fayda sağlama potansiyeline sahip olarak görülüyor.
Örneğin, Sigorta şirketleri; demografi, kazançlar, tıbbi talepler, avukat giderleri, hava durumu, bir müşterinin ses kayıtları ve çağrı merkezi notları hakkında gerçek zamanlı verileri yakalar. Spesifik gerçek zamanlı ayrıntılar, speküle edilen dolandırıcılık iddialarını erken belirlemek için yukarıda belirtilen bilgileri geçmiş verilerle birleştirerek tahmine dayalı modellerin türetilmesine yardımcı olur.
# 4) Fiyat Optimizasyonu
Şirketler, kategori düzeyinde değil, ürün düzeyinde en iyi fiyatı bularak kar marjlarını artırmak için büyük veri analitiğini kullanır. Büyük şirketler, binlerce ürün için düzenli olarak değişen fiyatlandırma değişkenlerinin ayrıntılı ayrıntılarını ve karmaşıklığını elde etmeyi çok zor buluyor.
Dinamik anlaşma puanlama gibi analitik odaklı bir fiyat optimizasyonu stratejisi, şirketlerin, talepkar müşterilerden hızlı kazançlar elde etmek için bireysel anlaşma seviyelerine ilişkin verilerine ve içgörülerine dayalı olarak ürün ve segment kümeleri için fiyat belirlemelerine olanak tanır.
Sıkça Sorulan Sorular
S # 1) Büyük veri analizi iyi bir kariyer mi?
Cevap: Herhangi bir organizasyona katma değerdir, bilgiye dayalı kararlar vermesine izin verir ve rakiplerine göre üstünlük sağlar. Büyük Veri kariyer hamlesi, bir kuruluş için önemli bir karar verici olma şansınızı artırır.
S # 2) Büyük veri analizi neden önemlidir?
Cevap: Organizasyonların yeni büyüme fırsatları ve endüstri verilerini birleştirip analiz edebilen tamamen yeni ürün kategorileri oluşturmasına yardımcı olur. Bu şirketler, ürün ve hizmetler, alıcılar ve tedarikçiler, tüketici tercihleri hakkında yakalanabilen ve analiz edilebilen geniş bilgiye sahiptir.
S # 3) Büyük veri analizi için neler gereklidir?
Cevap: İyi bir büyük veri analistinin aşina olması gereken teknoloji yelpazesi çok geniştir. Birinin Büyük Veri analitiğinde ustalaşması için çeşitli araçların, yazılımların, donanımların ve platformların anlaşılması gerekir. Örneğin, Hesap tabloları, SQL Sorguları ve R / R Studio ve Python bazı temel araçlardır.
Kurumsal düzeyde, Linux, Hadoop, Java, Scala, Python, Spark, Hadoop ve HIVE'a ek olarak MATLAB, SPSS, SAS ve Congnos gibi araçlar da önemlidir.
Amaç Soruları:
S # 4) Aşağıda verilen veritabanlarından hangisi NoSQL veritabanı değildir?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Cevap: PostgreSQL
S # 5) Cassandra bir NoSQL mi?
- Doğru
- Yanlış
Cevap: Doğru
S # 6) Aşağıdakilerden hangisi Hadoop'un mülkü değildir?
örnekler ve sözdizimi içeren unix komutları
- Açık kaynak
- Java tabanlı
- Dağıtılmış işlem
- Gerçek zamanlı
Cevap: Gerçek zamanlı
S # 7) Bir Veri Bilimcisi tarafından YAPILMAYAN tüm etkinlikleri seçin.
- Makine Öğrenimi modelleri oluşturun ve performanslarını iyileştirin.
- Analizleri doğrulamak için istatistiksel modellerin değerlendirilmesi
- Veri görselleştirme araçlarını kullanarak gelişmiş analizleri özetleyin
- Teknik analiz sonuçlarının iç ekiplere ve iş müşterilerine sunulması
Cevap: Teknik analiz sonuçlarının iç ekiplere ve iş müşterilerine sunulması
Daha fazla okuma = >> Veri Analisti ve Veri Bilimcisi arasındaki temel farklar
S # 8) Bir Veri Analisti tarafından hangi aktiviteler gerçekleştirilir?
- Ham verileri temizleyin ve düzenleyin
- Verilerdeki ilginç eğilimleri bulmak
- kolay yorumlama için gösterge tabloları ve görselleştirmeler oluşturun
- Yukarıdakilerin hepsi
Cevap: Yukarıdakilerin hepsi
S # 9) Aşağıdakilerden hangisi bir Veri Mühendisi tarafından gerçekleştirilir?
- Yeni veri kaynaklarının mevcut veri analizi boru hattına entegrasyonu
- Veri tüketimi için API'lerin geliştirilmesi
- sürekli performans için sistemin izlenmesi ve test edilmesi
- Yukarıdakilerin hepsi
Cevap: Yukarıdakilerin hepsi
S # 10) Analitik için doğru veri akışı dizisi
- Veri kaynakları, Veri hazırlama, Veri dönüştürme, Algoritma Tasarımı, Veri Analizi
- Veri kaynakları, Veri dönüşümü, Algoritma Tasarımı, Veri hazırlama, Veri Analizi
- Veri kaynakları, Algoritma Tasarımı, Veri hazırlama, Veri dönüştürme, Veri Analizi
- Veri kaynakları, Veri hazırlama, Algoritma Tasarımı, Veri dönüştürme, Veri Analizi
Cevap: Veri kaynakları, Veri hazırlama, Veri dönüştürme, Algoritma Tasarımı, Veri Analizi
S # 11) Veri Analizi doğrusal bir süreçtir.
- Doğru
- Yanlış
Cevap: Yanlış
S # 12) Keşifsel Analiz DEĞİLDİR
- Cevap ayrıntılı olarak ilk veri analizi soruları
- Veri kümesiyle ilgili sorunları belirleyin
- Soruya cevabın bir taslağını geliştirin
- Bir soruyu yanıtlamak için verilerin doğru olup olmadığını belirleyin
Cevap: Cevapayrıntılı olarak ilk veri analizi soruları
S # 13) Tahmin sorusu, Çıkarımsal soruya verilen başka bir isimdir.
- Doğru
- Yanlış
Cevap: Yanlış
Sonuç
Büyük veri analitiğinin en önemli yönlerini ele aldık. Maksimum fayda sağlamak için büyük veri analitiği endüstrisindeki en yaygın kullanım durumlarını ve eğilimleri açıkladık.
Önerilen Kaynaklar
- 2021 Yılının En İyi 7 En İyi Veri Analitiği Şirketi (2021 Listesi Güncellenmiş)
- 2021'de En İyi 15 Büyük Veri Aracı (Büyük Veri Analitiği Araçları)
- Mükemmel Veri Yönetimi İçin En İyi 10 Veri Analizi Aracı (2021 LIST)
- 2021'de Programlamayı Ortadan Kaldıran En İyi 10 Veri Bilimi Aracı
- Yeni Başlayanlar İçin Büyük Veri Eğitimi | Büyük Veri Nedir?
- 2021'in En İyi 13 Büyük Veri Şirketi
- Karmaşık Tasarımları Yönetmek İçin En İyi 10 Veri Modelleme Aracı
- 2021'de Veri İhtiyaçlarınızı Karşılamak İçin 10'dan Fazla En İyi Veri Yönetim Aracı