what is hadoop apache hadoop tutorial
Yeni Başlayanlar İçin Bu Apache Hadoop Eğitimi, Büyük Veri Hadoop'u, Özellikleri, Çerçevesi ve Mimarisi hakkında her şeyi ayrıntılı olarak açıklar:
en iyi ücretsiz virüs ve kötü amaçlı yazılım temizleme
Önceki eğitimde, Büyük Veriyi ayrıntılı olarak tartıştık. Şimdi soru, bu kadar büyük hacimli verileri nasıl güvenilir ve doğru sonuçlarla işleyip işleyebiliriz.
Gerçekten de Apache tarafından sağlanan ve Java tarafından desteklenen harika bir çözüm var. Hadoop Çerçevesi .
=> Kolay BigData Eğitim Serisini Okuyun.
Ne öğreneceksin:
Hadoop nedir?
Apache Hadoop, tüm veri türlerini (Yapılandırılmış, Yapılandırılmamış ve Yarı Yapılandırılmış) yönetmek için açık kaynaklı bir çerçevedir.
Hepimizin bildiği gibi, verilerimizi işlemek, depolamak ve yönetmek istiyorsak, RDBMS en iyi çözümdür. Ancak, verilerin RDBMS ile işlenmesi için yapılandırılmış bir formatta olması gerekir. Ayrıca, verilerin boyutu artarsa, RDBMS bunu işleyemez ve düzenli olarak Veritabanı temizliği yapmamız gerekir.
Bu, geçmiş veri kaybına neden olabilir ve Hava tahmini, Bankacılık, Sigorta, Satış vb. Gibi bazı endüstrilerde doğru ve güvenilir sonuçlar üretemez. RDBMS ile ilgili bir diğer sorun, ana sunucu arızalanırsa, önemli olanı kaybedebiliriz. veri ve çok acı çekiyor.
Bu eğitimde, Apache Hadoop ile bu sorunların üstesinden nasıl gelebileceğimizi göreceğiz.
Hadoop, dağıtılmış bir dosya sistemidir ve büyük hacimli verileri (petabayt ve terabayt cinsinden veriler) depolayabilir. Veri işleme hızı da çok hızlıdır ve hata toleransı çok yüksek bir sisteme sahip olduğu için güvenilir sonuçlar sağlar.
Hadoop, dağıtılmış bir bilgi işlem ortamında Büyük Veri kümelerinin Depolanmasını ve İşlenmesini destekleyen Java tabanlı bir açık kaynaklı programlama çerçevesidir.
Hadoop, ticari donanım kullanan bir Küme Konseptine dayanmaktadır. Herhangi bir karmaşık konfigürasyon gerektirmez ve daha ucuz, basit ve hafif konfigürasyon donanımıyla Hadoop ortamını kurabiliriz.
Basit bir deyişle küme kavramı, birden fazla makinede çoğaltma biçiminde depolanan Veridir, böylece verilerin bulunduğu konumlardan birinde herhangi bir sorun veya felaket meydana geldiğinde, bu verilerin başka bir konumda güvenli bir şekilde kullanılabilen yinelenen bir kopyası olmalıdır. .
Hadoop Vs RDMBS
Aşağıda, Hadoop'un RDBMS'ye göre avantajlarını açıklayan bazı noktalar listelenmiştir.
Özellikleri | Hadoop | RDBMS |
---|---|---|
Depolama | Çok yüksek depolama kapasitesi. | Bigdata saklanamıyor. |
Mimari | Hadoop; HDFS, MapReduce ve YARN tabanlıdır. | RDBMS, ACID özelliklerine dayanır. |
Ses | Büyük hacimli verileri işleyebilir. | RDBMS büyük hacimli verileri işleyemez. |
Veri Çeşitliliği / Türleri | Video, resimler, CSV dosyaları, xml vb. Yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verileri işleyebilir. | Yalnızca yapılandırılmış verileri işleyin. |
Hız | Büyük miktarda verinin hızlı işlenmesi. | Büyük miktarda veriyi işlerken çok yavaş. |
Çıktı | Yüksek verim. | Düşük verim. |
Hata toleransı | Çok iyi | Ana sunucu çökerse kaybolan verileri kurtaramaz. |
Dürüst | Çok güvenilirdir ve doğru geçmiş ve güncel raporlar üretir. | Bigdata açısından güvenilir değil. |
Hadoop Özellikleri
Artık Hadoop'nin tam tanımını biliyoruz. Bir adım ileri gidelim ve Hadoop'ta kullandığımız terminolojilere aşina olalım, mimarisini öğrenelim ve Bigdata'da tam olarak nasıl çalıştığını görelim.
Hadoop çerçevesi aşağıdaki kavramlara veya modüllere dayanmaktadır:
- Hadoop İPLİK
- Hadoop Yaygın
- Hadoop HDFS ( H alışmak D paylaştırılmış F ile S ystem)
- Hadoop MapReduce
# 1) Hadoop İPLİĞİ: YARN, ' Y ve KİME başka R kaynak N bulutun küme teknolojisini yönetmek için kullanılan egotiator ”. İş planlaması için kullanılır.
# 2) Hadoop Ortak: Bu, Hadoop'un YARN, MapReduce ve HDFS gibi diğer özellikleriyle iletişim kurmak için kullanılan ayrıntılı kitaplıklar veya yardımcı programlardır.
# 3) Hadoop HDFS: Dağıtılmış Dosya sistemi, Hadoop'ta yüksek hacimli verileri depolamak ve işlemek için kullanılır. Ayrıca kümeden verilere erişmek için kullanılır.
# 4) Hadoop MapReduce: MapReduce, kümedeki verilerin işlenmesinden sorumlu olan Hadoop'un ana özelliğidir. İş planlaması ve veri işlemenin izlenmesi için kullanılıyor.
Burada, bu özelliklerin tanımını ekledik, ancak tüm bu özelliklerin ayrıntılı bir açıklamasını gelecek eğitimlerimizde göreceğiz.
Hadoop Mimarisi
Çerçevenin mimarisini öğrenelim ve içinde hangi bileşenlerin kullanıldığını görelim. Bu çerçeve, kümedeki bir ana-bağımlı mimariyi izler.
Hadoop bileşenleri aşağıdadır:
- HDFS
- Harita indirgeme
- İPLİK
Bunlar, Hadoop mimarisinin üç önemli bileşenidir. Mimarinin bazı terminolojilerini veya kavramlarını da anlamalı ve nasıl çalıştıklarını görmeliyiz.
- Ad Düğümü
- Veri Düğümü
- İkincil Ad Düğümü
- Bloklar
# 1) Ad Düğümü
Ad Düğümü, HDFS'deki ana Düğümdür. Dosya bilgileri, Dizin yapısı, blok bilgileri ve Veri Düğümüne ait tüm bilgiler gibi HDFS meta verilerini içerir. Ad Düğümü yalnızca istemciden veri veya dosyaya erişimden sorumludur. Dosyalarda yapılan tüm işlemleri veya değişiklikleri izler.
Esas olarak iki dosya üzerinde çalışır, yani FsImage ve Günlükleri Düzenle . Ad Düğümü, hangi Veri Düğümünün hangi göreve sahip olduğu, her Veri Düğümünde kaç blok olduğu, her Veri Düğümünün kalp atışı, kümedeki iş planlama ayrıntıları vb. Gibi Veri Düğümünün tüm ayrıntılarını içeren bir İş İzleyiciye sahiptir.
Kısaca, bir JobTracker'ın her Veri Düğümünün TaskTracker'ını içerdiğini söyleyebiliriz.
# 2) Veri Düğümü
Veri Düğümü, HDFS'deki Bağımlı Düğümdür. Veri Düğümü, verilerin gerçek depolanması ve işlenmesinden sorumludur. Ana görevi, işi üç bloğa bölmek ve bunu farklı Veri Düğümlerinde saklamaktır. Bundan sonra verileri işlemeye başlar.
Ayrıca, her bloğun tam bilgisine sahip olan ve hangi bloğun hangi görevden sorumlu olduğu, görevi tamamlayan blokları vb. Ve verileri işledikten sonra bilgileri Ad Düğümüne gönderen TaskTracker'a sahiptir. Veri Düğümü her başladığında, tüm bilgileri yeniden Ad Düğümüne gönderir.
# 3) İkincil İsim Düğümü
İkincil İsim Düğümü, hata toleransı durumunda kullanılır. Ad Düğümünün çalışmadığı ve tüm Hadoop yapısının başarısız olacağı iki senaryo vardır, çünkü Ad Düğümü tek hata noktasıdır.
(i) Ad Düğümü, büyük miktarda veriye sahip olduğu için tekrar ortaya çıkması gerekenden daha fazla bir sorundan dolayı yeniden başlatılırsa, o zaman bunun kurtarılması zaman alır.
(ii) Ad Düğümünün çökmesi durumunda, tüm HDFS verileri kaybedilecek ve Ad Düğümü tek hata noktası olduğundan bir daha kurtarılamayacaktır. Dolayısıyla, bu sorunların üstesinden gelmek için İkincil İsim Düğümü oradadır. Aynı zamanda bir Ad Alanı görüntüsü içerir ve Düzenleme günlükleri, Ad Düğümü ile aynıdır.
Belirli bir süre sonra, Ad Alanı görüntüsünü kopyalar ve Ad Düğümünden Düzenleme günlüklerini günceller. Bu nedenle, bir İsim Düğümü arızası durumunda, İkincil İsim Düğümü resme gelir ve birincil İsim Düğümü gibi davranır. Bu işlem sayesinde toplam arızayı önler.
# 4) Bloklar
Bloklar, HDFS'deki en küçük birimdir. Hadoop, büyük miktarda dosyayı küçük bloklara böldüğü için işleyebilir. Blokların büyük bir dosyanın verilerinden başka bir şey olmadığını söyleyebiliriz. Her bloğun boyutu 128MB'dir. Bu bloklar Veri Düğümlerine kaydedilir ve verileri işler.
Şimdi, nasıl çalıştığını anlamak için Hadoop'un mimarisini öğrenelim.
Hadoop dağıtılmış dosya sistemi (HDFS), Hadoop kümesinde kullanılan dosya sistemidir. Hadoop verilerini kümede depolamak için temel olarak HDFS kullanılır. HDFS genellikle sıralı veri işleme üzerinde çalışır. Zaten bildiğimiz gibi, Master-Slave mimarisine dayanıyor.
Kümenin tüm Meta Verileri, JobTracker'daki Ad Düğümüne kaydedilir ve gerçek veriler, TaskTracker'daki HDFS'nin Veri Düğümünde saklanır.
MapReduce, verilerin işlenmesinden sorumludur. Herhangi bir dosya işlenmek üzere kümeye geldiğinde, ilk Veri Düğümü onu bloklara böler ve her blok 64MB veri içerir ve 128MB depolayabilir. Daha sonra her blok iki kez çoğalacak ve kümenin herhangi bir yerinde farklı Veri Düğümlerinde saklanacaktır.
Tüm bu bilgiler İsim Düğümüne gönderilecek ve İsim Düğümü bu bilgileri meta veri biçiminde saklayacaktır. Daha sonra verilerin fiili işlenmesi Veri Düğümünü başlatacak ve İsim Düğümünün bu Veri Düğümünün üzerinde çalıştığı bilgiye sahip olması için her üç saniyede bir İsim Düğümüne bir kalp atışı gönderecektir.
Veri Düğümünden herhangi biri sinyal göndermede başarısız olursa, Ad Düğümü bu bloğun kopyasını başka bir Veri Düğümünde yeniden oluşturur ve işlemeye başlar.
Tüm bu bilgiler veya anlık görüntüler FsImage'da saklanır ve herhangi bir işlem yapılırsa düzenleme günlüğü yeni bilgileri birleştirir ve her zaman günlüklerin yeni bir kopyasını tutar.
İlk görevi bitiren blok alınacak ve Veri Düğümü bilgileri Ad Düğümüne gönderecek ve Ad Düğümü buna göre eylemi gerçekleştirecektir.
Tüm bu süreçte YARN, veri işlemeyi ve hızı etkilememesi için sisteme gerekli kaynakları sağlayacak ve destekleyecektir. Verilerin işlenmesinden sonra, sonuçlar daha fazla analiz için HDFS'ye kaydedilecektir.
Sonuç
Bu öğreticide, Hadoop'un ne olduğunu, RDBMS ile Hadoop arasındaki farkları, Avantajları, Bileşenleri ve Hadoop Mimarisini öğrendik.
Bu çerçeve, büyük verilerin işlenmesinden ve analiz edilmesinden sorumludur. MapReduce, YARN ve HDFS'nin kümede çalıştığını gördük.
Not: Aşağıdakiler, Ad Düğümü ve Veri Düğümünün Yapılandırma ayrıntılarıdır. İkincil İsim Düğümü, İsim Düğümü ile aynı konfigürasyona sahip olacaktır.
Ad Düğüm Yapılandırması:
İşlemciler: 2 GHz'de çalışan 2 Dört Çekirdekli CPU
RAM: 128 GB
Disk: 6 x 1TB SATA
Ağ: 10 Gigabit Ethernet
Veri Düğümü Yapılandırması:
İşlemciler: 2 GHz'de çalışan 2 Dört Çekirdekli CPU
RAM: 64 GB
Disk: 12-24 x 1TB SATA
Ağ: 10 Gigabit Ethernet
=> Büyük Veri Yeni Başlayanlar Kılavuzuna Bir Göz Atın.
Önerilen Kaynaklar
- Yeni Başlayanlar İçin Büyük Veri Eğitimi | Büyük Veri Nedir?
- Yeni Başlayanlar İçin 20+ MongoDB Eğitimi: Ücretsiz MongoDB Kursu
- Node.js Test Çerçevesi Nasıl Kurulur: Node.js Eğitimi
- Data Mart Eğitimi - Data Mart Türleri, Örnekleri ve Uygulaması
- Yeni Başlayanlar İçin Derinlemesine Eclipse Eğiticileri
- Yeni Başlayanlar İçin Python Eğitimi (Uygulamalı ÜCRETSİZ Python Eğitimi)
- Apache POI Kullanan Selenium WebDriver'da Veriye Dayalı Çerçeve
- Yeni Başlayanlar İçin LoadRunner Eğitimi (Ücretsiz 8 Günlük Kapsamlı Kurs)