big data tutorial beginners what is big data
Bu Eğitim, Büyük Veri Temelleri hakkında her şeyi açıklar. Eğitici, Büyük Veri Uygulamaları ile birlikte Avantajları, Zorlukları, Teknolojileri ve Araçları içerir:
Teknolojik gelişmelerin yaşandığı bu dijital dünyada, günlük olarak büyük miktarda veri alışverişinde bulunuyoruz. Terabayt veya Petabayt .
Bu miktarda veriyi günlük olarak değiş tokuş ediyorsak, o zaman onu da korumamız ve bir yerde saklamamız gerekir. Büyük hacimli verileri yüksek hızda ve farklı çeşitlilikte işlemenin çözümü Büyük veri.
Farklı veritabanları, web siteleri, widget'lar vb. Gibi birden çok kaynaktan gelen karmaşık verileri işleyebilir. Ayrıca, farklı kaynaklardan gelen verileri bağlayabilir ve eşleştirebilir. Gerçekten de verilere daha hızlı erişim sağlar ( Örneğin, sosyal medya).
Bu Büyük Veri Serisindeki Öğreticilerin Listesi
Öğretici 1: Büyük Veri Nedir? (Bu Eğitici)
Öğretici # 2: Hadoop nedir? Yeni Başlayanlar İçin Apache Hadoop Eğitimi
Öğretici 3: Hadoop HDFS - Hadoop Dağıtılmış Dosya Sistemi
Eğitim 4: Hadoop Mimarisi ve HDFS Komutları Kılavuzu
Öğretici 5: Örneklerle Hadoop MapReduce Eğitimi | MapReduce Nedir?
Öğretici # 6: Yeni Başlayanlar İçin Apache Hadoop YARN Eğitimi | İPLİK Nedir?
Eğitim 7: Kapsamlı Hadoop Testi Eğitimi | Büyük Veri Test Rehberi
Ne öğreneceksin:
Büyük Veri Nedir?
Büyük veri kelimesi Büyük Veriyi açıklamak için yeterli değildir, bazı özellikler verileri Büyük Veri olarak sınıflandırır.
BigData'nın üç ana özelliğine sahibiz ve bu özellikleri karşılayan herhangi bir veri varsa o zaman BigData olarak değerlendirilecektir. ben t, aşağıda belirtilen üç V'nin birleşimidir:
- Ses
- Hız
- Çeşitlilik
Ses : Veriler çok büyük hacimli olmalıdır. Büyük Veri, Terabyte veya Petabyte cinsinden büyük miktarda veriyi korumak için çözüme sahiptir. BigData üzerinde CRUD (Oluşturma, Okuma, Güncelleme ve Silme) işlemlerini kolay ve etkin bir şekilde gerçekleştirebiliriz.
Hız : Verilere daha hızlı erişimden sorumludur. Örneğin, Günümüzde sosyal medyanın çok kısa bir süre içinde hızlı bir veri alışverişine ihtiyacı var ve bunun için BigData en iyi çözüm. Dolayısıyla hız başka bir özelliktir ve verinin işlem hızıdır.
Çeşitlilik : Sosyal medyada ses veya video kayıtları, görüntüler vb. Gibi yapılandırılmamış verilerle uğraşıyoruz. Ayrıca bankacılık alanı gibi çeşitli sektörlerin yapılandırılmış ve yarı yapılandırılmış verilere ihtiyacı var. BigData, her iki tür veriyi tek bir yerde tutmanın çözümüdür.
Çeşitlilik, birden çok kaynaktan gelen Yapılandırılmış / Yapılandırılmamış Veriler gibi farklı veri türleri anlamına gelir.
yazılım geliştirme yaşam döngüsü 5 aşama
Yapılandırılmış Veriler : Uygun bir yapıya sahip olan veya Oracle, SQL Server veya MySQL gibi herhangi bir İlişkisel Veri Tabanında tablo şeklinde kolayca saklanabilen Veriler, Yapılandırılmış Veri olarak bilinir. Kolay ve verimli bir şekilde işleyebilir veya analiz edebiliriz.
Yapılandırılmış Verilere bir örnek, SQL (Yapılandırılmış Sorgu Dili) kullanılarak yönetilebilen İlişkisel Veritabanında depolanan verilerdir. Örneğin, Çalışan Verileri (Ad, Kimlik, Atama ve Maaş) tablo biçiminde saklanabilir.
Geleneksel bir veritabanında, yapılandırılmamış veya yarı yapılandırılmış verileri ancak biçimlendirildikten veya ilişkisel veritabanına sığdırıldıktan sonra işlemleri gerçekleştirebilir veya işleyebiliriz. Örnekler Yapılandırılmış Veriler arasında ERP, CRM vb.
Yarı Yapılandırılmış Veriler: Yarı Yapılandırılmış Veriler, tam olarak biçimlendirilmemiş verilerdir. Veri tablolarında veya herhangi bir veritabanında saklanmaz. Ancak yine de, bu veriler Etiketler veya virgülle ayrılmış değerler vb. İçerdiğinden onu kolayca hazırlayabilir ve işleyebiliriz. Misal Yarı yapılandırılmış veriler arasında XML dosyaları, CSV dosyaları vb.
Yapılandırılmamış Veriler: Yapılandırılmamış Veriler, herhangi bir yapısı olmayan verilerdir. Herhangi bir biçimde olabilir, önceden tanımlanmış bir veri modeli yoktur. Bunu geleneksel veritabanlarında saklayamayız. Aramak ve işlemek karmaşıktır.
en iyi ücretsiz bilgisayar temizleyici ve onarımı
Ayrıca, Yapılandırılmamış Verilerin hacmi çok yüksektir. Misal Yapılandırılmamış Veriler arasında e-posta gövdesi, Ses, Video, Görüntüler, Elde Edilen belgeler vb.
Geleneksel Veritabanlarının Zorlukları
- Geleneksel veritabanı çeşitli verileri desteklemez, yani Yapılandırılmamış ve Yarı Yapılandırılmış verileri işleyemez.
- Geleneksel bir veritabanı, büyük miktarda veriyle uğraşırken yavaştır.
- Geleneksel veritabanlarında, büyük miktarda verinin işlenmesi veya analizi çok zordur.
- Geleneksel bir veritabanı, terabayt veya petabayt cinsinden verileri depolayabilir.
- Geleneksel bir veritabanı Geçmiş Verileri ve Raporları işleyemez.
- Belirli bir süre sonra veritabanının veri temizliği gerekir.
- Geleneksel bir veritabanında büyük miktarda veriyi korumanın maliyeti çok yüksektir.
- Geleneksel veri tabanında veri doğruluğu daha azdır, çünkü içinde tam geçmiş veriler korunmaz.
Büyük veriGeleneksel Veritabanına Göre Faydaları
- Büyük Veri, Yapılandırılmış, Yarı Yapılandırılmış ve Yapılandırılmamış gibi farklı veri türlerini işlemek, yönetmek ve işlemekten sorumludur.
- Büyük miktarda veriyi muhafaza etme açısından uygun maliyetli. Dağıtık bir veritabanı sistemi üzerinde çalışır.
- BigData tekniklerini kullanarak büyük miktarda veriyi uzun süre saklayabiliriz. Dolayısıyla, geçmiş verileri işlemek ve doğru raporlar oluşturmak kolaydır.
- Veri işleme hızı çok hızlı ve bu nedenle sosyal medya Büyük Veri tekniklerini kullanıyor.
- Veri Doğruluğu, Büyük Verinin büyük bir avantajıdır.
- Kullanıcıların, güncel ve geçmiş verilere dayanarak işleri için verimli kararlar almasına olanak tanır.
- BigData'da Hata İşleme, Sürüm Kontrolü ve müşteri deneyimi çok etkilidir.
Önerilen okuma => Büyük Veri - Büyük Veri Analitiği - Veri Bilimi
BigData'daki Zorluklar ve Riskler
Zorluklar:
- Büyük Veri'deki en büyük zorluklardan biri, büyük miktarda veriyi yönetmektir. Günümüzde veriler, çeşitli kaynaklardan çeşitlilik içeren bir sisteme gelmektedir. Bu nedenle, doğru şekilde yönetmek şirketler için çok büyük bir zorluk. Örneğin, Son 20 yıllık verileri içeren bir rapor oluşturmak için, bir sistemin son 20 yıllık verilerini kaydetmeyi ve sürdürmeyi gerektirir. Doğru bir rapor verebilmek için sisteme sadece ilgili verilerin girilmesi gerekmektedir. Alakasız veya gereksiz veriler içermemelidir, aksi takdirde bu miktarda veriyi korumak şirketler için büyük bir zorluk olacaktır.
- Bu teknolojiyle ilgili bir diğer zorluk, çeşitli veri türlerinin senkronizasyonudur. Hepimizin bildiği gibi Büyük Veri, farklı kaynaklardan gelen Yapılandırılmış, Yapılandırılmamış ve Yarı Yapılandırılmış verileri destekler, senkronize etmek ve verilerin tutarlılığını sağlamak çok zordur.
- Şirketlerin karşı karşıya olduğu bir sonraki zorluk, sistemde karşılaştıkları sorunlara yardımcı olabilecek ve bunları uygulayabilecek uzmanların boşluğudur. Bu alandaki yeteneklerde büyük bir boşluk var.
- Uyum konusunu ele almak pahalıdır.
- BigData'nın veri toplama, toplama, depolama, analizi ve raporlaması büyük bir maliyete sahiptir. Organizasyon tüm bu maliyetleri yönetebilmelidir.
Riskler:
- Çeşitli verileri işleyebilir, ancak şirketler gereksinimleri doğru bir şekilde anlayamazlar ve veri kaynağını kontrol edemezlerse, kusurlu sonuçlar sağlayacaktır. Sonuç olarak, sonuçları araştırmak ve düzeltmek için çok zaman ve paraya ihtiyaç duyacaktır.
- Veri güvenliği, BigData ile ilgili başka bir risktir. Yüksek hacimli verilerle, birinin onu çalma olasılığı daha yüksektir. Veri korsanları, şirketin önemli bilgilerini (geçmiş veriler dahil) çalabilir ve satabilir.
- Ayrıca Veri Gizliliği, BigData için başka bir risktir. Kişisel ve hassas verileri bilgisayar korsanlarından korumak istiyorsak, bu veriler korunmalı ve tüm gizlilik politikalarını geçmelidir.
Büyük Veri Teknolojileri
Büyük Verileri yönetmek için kullanılabilecek teknolojiler şunlardır:
- Apache Hadoop
- Microsoft HDInsight
- SQL yok
- Kovan
- Sqoop
- Excel'de BigData
Bu teknolojilerin ayrıntılı bir açıklaması gelecek eğitimlerimizde ele alınacaktır.
Büyük Veri Kavramlarını Kullanmak İçin Araçlar
Aşağıda, Büyük Veri kavramlarının kullanılmasına yardımcı olabilecek açık kaynaklı araçlar listelenmiştir:
# 1) Apache Hadoop
# 2) Lumify
# 3) Apaçi Fırtınası
# 4) Apaçi Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) HPCC Sistemi BigData
Büyük Veri Uygulamaları
Kullanıldığı alanlar şunlardır:
- Bankacılık
- Medya ve Eğlence
- Sağlık Sağlayıcıları
- Sigorta
- Eğitim
- Perakende
- İmalat
- Devlet
Büyük Veri ve Veri Ambarı
Veri Ambarı, Hadoop veya BigData Testini tartışmadan önce anlamamız gereken temel bir kavramdır.
Veri Ambarı'nı gerçek zamanlı bir örnekten anlayalım. Örneğin Üç farklı ülkede şubelerini kurmuş bir şirket var, Hindistan, Avustralya ve Japonya'da bir şube varsayalım.
Her şubede, tüm müşteri verileri Yerel Veritabanında saklanır. Bu yerel veritabanları, Oracle veya MySQL veya SQL Server gibi normal klasik RDBMS'ler olabilir ve tüm müşteri verileri günlük olarak depolanır.
Şimdi, her üç ayda bir, altı ayda bir veya yılda bir, kuruluş bu verileri iş geliştirme için analiz etmek istiyor. Aynı şeyi yapmak için, kuruluş tüm bu verileri birden çok kaynaktan toplayacak ve sonra tek bir yerde bir araya getirecek ve bu yer 'Veri deposu'.
Veri Ambarı, birden çok kaynaktan veya birden çok veritabanı türünden alınan tüm verileri içeren bir tür veritabanıdır. 'ETL' (hangisi DIR-DİR xtract, T ransform ve L oad) süreci. Veriler Veri Ambarı'nda hazır olduğunda, onu analitik amaçlarla kullanabiliriz.
Dolayısıyla, analiz için Veri Ambarı'nda bulunan verilerden raporlar üretebiliriz. İş Zekası Araçları kullanılarak birden çok grafik ve rapor oluşturulabilir.
İşi büyütmek ve kuruluşlar için uygun kararlar almak amacıyla analitik amaçlar için Veri Ambarı'na ihtiyacımız var.
android için en iyi bedava mp3 indirici nedir
Bu süreçte üç şey oluyor, birincisi verileri birden çok kaynaktan aldık ve Veri Ambarı olan tek bir konuma koyduk.
Burada “ETL” sürecini kullanıyoruz, bu nedenle verileri birden çok kaynaktan tek bir yere yüklerken, bunu Dönüşüm köklerinde uygulayacağız ve sonra burada çeşitli ETL araçlarını kullanabiliriz.
Veriler Veri Ambarı'na hazır olduğunda, İş Zekası (BI) Araçlarını kullanarak iş verilerini analiz etmek için çeşitli raporlar oluşturabilir veya bunlara Raporlama Araçları da diyoruz. Tableau veya Cognos gibi araçlar, iş için verileri analiz etmek üzere Raporlar ve DashBoards oluşturmak için kullanılabilir.
OLTP ve OLAP
OLTP'nin ve OLAP'ın ne olduğunu anlayalım.
Yerel olarak tutulan ve işlem amaçları için kullanılan veritabanları denir OLTP yani Çevrimiçi İşlem İşleme. Günlük işlemler burada saklanacak ve hemen güncellenecek ve bu yüzden onlara OLTP Sistemi dedik.
Burada Geleneksel Veritabanları kullanıyoruz, birden fazla tablomuz var ve ilişkilerimiz var, bu nedenle her şey veritabanına göre sistematik olarak planlanıyor. Bu verileri analitik amaçlarla kullanmıyoruz. Burada Oracle, MySQL, SQL Server gibi klasik RDMBS veritabanlarını kullanabiliriz.
Veri Ambarı kısmına geldiğimizde, yine bir tür veritabanı olan ancak bir DataWarehouse'daki veriler genellikle analitik amaçlar için kullanılan ve adı verilen Teradata veya Hadoop Sistemleri kullanıyoruz. OLAP veya Çevrimiçi analitik işleme.
Burada veriler üç ayda bir, altı ayda bir veya yıllık olarak güncellenebilir. Bazen veriler 'Offerly' olarak da güncellenir; burada Offerly, verilerin güncellenip müşteri gereksinimlerine göre analiz için getirildiği anlamına gelir.
Ayrıca, analiz için veriler günlük olarak güncellenmez çünkü verileri birden çok kaynaktan planlı olarak alacağız ve bu ETL görevini gerçekleştirebiliriz. Çevrimiçi Analitik İşleme Sistemi bu şekilde çalışır.
Yine burada, BI Araçları veya Raporlama Araçları hem raporlar hem de Gösterge Tabloları oluşturabilir ve buna dayalı olarak iş adamları işlerini geliştirmek için kararlar alacaklardır.
BigData resmin içine nerede giriyor?
BigData, geleneksel veritabanlarının depolama ve işleme kapasitesinin ötesinde olan ve Yapılandırılmış ve Yapılandırılmamış formatta olduğu için yerel RDBMS sistemleri tarafından işlenemez.
Bu tür veriler TeraBytes (TB) veya PetaBytes (PB) veya ötesinde üretilecek ve günümüzde hızla artmaktadır. Bu tür verileri elde etmek için Facebook, WhatsApp (Sosyal Ağ ile ilgili olan) gibi birden fazla kaynak vardır; Amazon, E-Ticaret ile ilgili Flipkart; E-postalar ve Google ve diğer arama motorlarıyla ilgili Gmail, Yahoo, Rediff. Ayrıca SMS Verileri, Çağrı Kaydı, Çağrı Günlükleri gibi cep telefonlarından da büyük veriler alıyoruz.
Sonuç
Büyük veri, büyük miktarda veriyi verimli ve güvenli bir şekilde işlemek için bir çözümdür. Geçmiş verileri de korumaktan sorumludur. Bu teknolojinin birçok avantajı vardır, bu nedenle her şirket Büyük veriye geçmek ister.
Yazar: Vaishali Tarey, Teknik Lider @ Syntel
Önerilen Kaynaklar
- Data Mart Eğitimi - Data Mart Türleri, Örnekleri ve Uygulaması
- Karmaşık Veri Modelleri Oluşturmak için En İyi 10 Veritabanı Tasarım Aracı
- Yeni Başlayanlar İçin 20+ MongoDB Eğitimi: Ücretsiz MongoDB Kursu
- Veri Gölü Nedir | Veri Ambarı vs Veri Gölü
- SEO için En İyi 10 Yapılandırılmış Veri Test ve Doğrulama Aracı
- Veri Ambarında Boyutlu Veri Modeli - Örneklerle Eğitim
- Veri Madenciliği: Veri Analizinde Süreç, Teknikler ve Başlıca Sorunlar
- SoapUI Pro'da Veriye Dayalı Test Nasıl Gerçekleştirilir - SoapUI Eğitimi # 14