Hadoop nedir? Yeni Başlayanlar İçin Apache Hadoop Eğitimi

what is hadoop apache hadoop tutorial

Sorunları Ortadan Kaldırmak Için Enstrümanımızı Deneyin

İşletim Sistemini Seçin Bir Projeksiyon Programı Seçin (Isteğe Bağlı Olarak)

Sorununuzu Açıklayın

Yeni Başlayanlar İçin Bu Apache Hadoop Eğitimi, Büyük Veri Hadoop'u, Özellikleri, Çerçevesi ve Mimarisi hakkında her şeyi ayrıntılı olarak açıklar:

en iyi ücretsiz virüs ve kötü amaçlı yazılım temizleme

Önceki eğitimde, Büyük Veriyi ayrıntılı olarak tartıştık. Şimdi soru, bu kadar büyük hacimli verileri nasıl güvenilir ve doğru sonuçlarla işleyip işleyebiliriz.

Gerçekten de Apache tarafından sağlanan ve Java tarafından desteklenen harika bir çözüm var. Hadoop Çerçevesi .

=> Kolay BigData Eğitim Serisini Okuyun.

Apache Hadoop Eğitimi

Ne öğreneceksin:

Hadoop nedir?
Sonuç
- Önerilen Kaynaklar

Hadoop nedir?

Apache Hadoop, tüm veri türlerini (Yapılandırılmış, Yapılandırılmamış ve Yarı Yapılandırılmış) yönetmek için açık kaynaklı bir çerçevedir.

Hepimizin bildiği gibi, verilerimizi işlemek, depolamak ve yönetmek istiyorsak, RDBMS en iyi çözümdür. Ancak, verilerin RDBMS ile işlenmesi için yapılandırılmış bir formatta olması gerekir. Ayrıca, verilerin boyutu artarsa, RDBMS bunu işleyemez ve düzenli olarak Veritabanı temizliği yapmamız gerekir.

Bu, geçmiş veri kaybına neden olabilir ve Hava tahmini, Bankacılık, Sigorta, Satış vb. Gibi bazı endüstrilerde doğru ve güvenilir sonuçlar üretemez. RDBMS ile ilgili bir diğer sorun, ana sunucu arızalanırsa, önemli olanı kaybedebiliriz. veri ve çok acı çekiyor.

Bu eğitimde, Apache Hadoop ile bu sorunların üstesinden nasıl gelebileceğimizi göreceğiz.

Hadoop, dağıtılmış bir dosya sistemidir ve büyük hacimli verileri (petabayt ve terabayt cinsinden veriler) depolayabilir. Veri işleme hızı da çok hızlıdır ve hata toleransı çok yüksek bir sisteme sahip olduğu için güvenilir sonuçlar sağlar.

Hadoop, dağıtılmış bir bilgi işlem ortamında Büyük Veri kümelerinin Depolanmasını ve İşlenmesini destekleyen Java tabanlı bir açık kaynaklı programlama çerçevesidir.

Hadoop, ticari donanım kullanan bir Küme Konseptine dayanmaktadır. Herhangi bir karmaşık konfigürasyon gerektirmez ve daha ucuz, basit ve hafif konfigürasyon donanımıyla Hadoop ortamını kurabiliriz.

Basit bir deyişle küme kavramı, birden fazla makinede çoğaltma biçiminde depolanan Veridir, böylece verilerin bulunduğu konumlardan birinde herhangi bir sorun veya felaket meydana geldiğinde, bu verilerin başka bir konumda güvenli bir şekilde kullanılabilen yinelenen bir kopyası olmalıdır. .

Hadoop Vs RDMBS

Aşağıda, Hadoop'un RDBMS'ye göre avantajlarını açıklayan bazı noktalar listelenmiştir.

Özellikleri	Hadoop	RDBMS
Depolama	Çok yüksek depolama kapasitesi.	Bigdata saklanamıyor.
Mimari	Hadoop; HDFS, MapReduce ve YARN tabanlıdır.	RDBMS, ACID özelliklerine dayanır.
Ses	Büyük hacimli verileri işleyebilir.	RDBMS büyük hacimli verileri işleyemez.
Veri Çeşitliliği / Türleri	Video, resimler, CSV dosyaları, xml vb. Yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verileri işleyebilir.	Yalnızca yapılandırılmış verileri işleyin.
Hız	Büyük miktarda verinin hızlı işlenmesi.	Büyük miktarda veriyi işlerken çok yavaş.
Çıktı	Yüksek verim.	Düşük verim.
Hata toleransı	Çok iyi	Ana sunucu çökerse kaybolan verileri kurtaramaz.
Dürüst	Çok güvenilirdir ve doğru geçmiş ve güncel raporlar üretir.	Bigdata açısından güvenilir değil.

Hadoop Özellikleri

Artık Hadoop'nin tam tanımını biliyoruz. Bir adım ileri gidelim ve Hadoop'ta kullandığımız terminolojilere aşina olalım, mimarisini öğrenelim ve Bigdata'da tam olarak nasıl çalıştığını görelim.

Hadoop çerçevesi aşağıdaki kavramlara veya modüllere dayanmaktadır:

Özellikleri

Hadoop İPLİK
Hadoop Yaygın
Hadoop HDFS ( H alışmak D paylaştırılmış F ile S ystem)
Hadoop MapReduce

# 1) Hadoop İPLİĞİ: YARN, ' Y ve KİME başka R kaynak N bulutun küme teknolojisini yönetmek için kullanılan egotiator ”. İş planlaması için kullanılır.

# 2) Hadoop Ortak: Bu, Hadoop'un YARN, MapReduce ve HDFS gibi diğer özellikleriyle iletişim kurmak için kullanılan ayrıntılı kitaplıklar veya yardımcı programlardır.

# 3) Hadoop HDFS: Dağıtılmış Dosya sistemi, Hadoop'ta yüksek hacimli verileri depolamak ve işlemek için kullanılır. Ayrıca kümeden verilere erişmek için kullanılır.

# 4) Hadoop MapReduce: MapReduce, kümedeki verilerin işlenmesinden sorumlu olan Hadoop'un ana özelliğidir. İş planlaması ve veri işlemenin izlenmesi için kullanılıyor.

Burada, bu özelliklerin tanımını ekledik, ancak tüm bu özelliklerin ayrıntılı bir açıklamasını gelecek eğitimlerimizde göreceğiz.

Hadoop Mimarisi

Çerçevenin mimarisini öğrenelim ve içinde hangi bileşenlerin kullanıldığını görelim. Bu çerçeve, kümedeki bir ana-bağımlı mimariyi izler.

Hadoop bileşenleri aşağıdadır:

HDFS
Harita indirgeme
İPLİK

Hadoop mimarisi

Bunlar, Hadoop mimarisinin üç önemli bileşenidir. Mimarinin bazı terminolojilerini veya kavramlarını da anlamalı ve nasıl çalıştıklarını görmeliyiz.

Ad Düğümü
Veri Düğümü
İkincil Ad Düğümü
Bloklar

# 1) Ad Düğümü

Ad Düğümü, HDFS'deki ana Düğümdür. Dosya bilgileri, Dizin yapısı, blok bilgileri ve Veri Düğümüne ait tüm bilgiler gibi HDFS meta verilerini içerir. Ad Düğümü yalnızca istemciden veri veya dosyaya erişimden sorumludur. Dosyalarda yapılan tüm işlemleri veya değişiklikleri izler.

Esas olarak iki dosya üzerinde çalışır, yani FsImage ve Günlükleri Düzenle . Ad Düğümü, hangi Veri Düğümünün hangi göreve sahip olduğu, her Veri Düğümünde kaç blok olduğu, her Veri Düğümünün kalp atışı, kümedeki iş planlama ayrıntıları vb. Gibi Veri Düğümünün tüm ayrıntılarını içeren bir İş İzleyiciye sahiptir.

Kısaca, bir JobTracker'ın her Veri Düğümünün TaskTracker'ını içerdiğini söyleyebiliriz.

# 2) Veri Düğümü

Veri Düğümü, HDFS'deki Bağımlı Düğümdür. Veri Düğümü, verilerin gerçek depolanması ve işlenmesinden sorumludur. Ana görevi, işi üç bloğa bölmek ve bunu farklı Veri Düğümlerinde saklamaktır. Bundan sonra verileri işlemeye başlar.

Ayrıca, her bloğun tam bilgisine sahip olan ve hangi bloğun hangi görevden sorumlu olduğu, görevi tamamlayan blokları vb. Ve verileri işledikten sonra bilgileri Ad Düğümüne gönderen TaskTracker'a sahiptir. Veri Düğümü her başladığında, tüm bilgileri yeniden Ad Düğümüne gönderir.

# 3) İkincil İsim Düğümü

İkincil İsim Düğümü, hata toleransı durumunda kullanılır. Ad Düğümünün çalışmadığı ve tüm Hadoop yapısının başarısız olacağı iki senaryo vardır, çünkü Ad Düğümü tek hata noktasıdır.

(i) Ad Düğümü, büyük miktarda veriye sahip olduğu için tekrar ortaya çıkması gerekenden daha fazla bir sorundan dolayı yeniden başlatılırsa, o zaman bunun kurtarılması zaman alır.

(ii) Ad Düğümünün çökmesi durumunda, tüm HDFS verileri kaybedilecek ve Ad Düğümü tek hata noktası olduğundan bir daha kurtarılamayacaktır. Dolayısıyla, bu sorunların üstesinden gelmek için İkincil İsim Düğümü oradadır. Aynı zamanda bir Ad Alanı görüntüsü içerir ve Düzenleme günlükleri, Ad Düğümü ile aynıdır.

Belirli bir süre sonra, Ad Alanı görüntüsünü kopyalar ve Ad Düğümünden Düzenleme günlüklerini günceller. Bu nedenle, bir İsim Düğümü arızası durumunda, İkincil İsim Düğümü resme gelir ve birincil İsim Düğümü gibi davranır. Bu işlem sayesinde toplam arızayı önler.

# 4) Bloklar

Bloklar, HDFS'deki en küçük birimdir. Hadoop, büyük miktarda dosyayı küçük bloklara böldüğü için işleyebilir. Blokların büyük bir dosyanın verilerinden başka bir şey olmadığını söyleyebiliriz. Her bloğun boyutu 128MB'dir. Bu bloklar Veri Düğümlerine kaydedilir ve verileri işler.

Hadoop

Şimdi, nasıl çalıştığını anlamak için Hadoop'un mimarisini öğrenelim.

Hadoop dağıtılmış dosya sistemi (HDFS), Hadoop kümesinde kullanılan dosya sistemidir. Hadoop verilerini kümede depolamak için temel olarak HDFS kullanılır. HDFS genellikle sıralı veri işleme üzerinde çalışır. Zaten bildiğimiz gibi, Master-Slave mimarisine dayanıyor.

Kümenin tüm Meta Verileri, JobTracker'daki Ad Düğümüne kaydedilir ve gerçek veriler, TaskTracker'daki HDFS'nin Veri Düğümünde saklanır.

MapReduce, verilerin işlenmesinden sorumludur. Herhangi bir dosya işlenmek üzere kümeye geldiğinde, ilk Veri Düğümü onu bloklara böler ve her blok 64MB veri içerir ve 128MB depolayabilir. Daha sonra her blok iki kez çoğalacak ve kümenin herhangi bir yerinde farklı Veri Düğümlerinde saklanacaktır.

Tüm bu bilgiler İsim Düğümüne gönderilecek ve İsim Düğümü bu bilgileri meta veri biçiminde saklayacaktır. Daha sonra verilerin fiili işlenmesi Veri Düğümünü başlatacak ve İsim Düğümünün bu Veri Düğümünün üzerinde çalıştığı bilgiye sahip olması için her üç saniyede bir İsim Düğümüne bir kalp atışı gönderecektir.

Veri Düğümünden herhangi biri sinyal göndermede başarısız olursa, Ad Düğümü bu bloğun kopyasını başka bir Veri Düğümünde yeniden oluşturur ve işlemeye başlar.

Tüm bu bilgiler veya anlık görüntüler FsImage'da saklanır ve herhangi bir işlem yapılırsa düzenleme günlüğü yeni bilgileri birleştirir ve her zaman günlüklerin yeni bir kopyasını tutar.

İlk görevi bitiren blok alınacak ve Veri Düğümü bilgileri Ad Düğümüne gönderecek ve Ad Düğümü buna göre eylemi gerçekleştirecektir.

Tüm bu süreçte YARN, veri işlemeyi ve hızı etkilememesi için sisteme gerekli kaynakları sağlayacak ve destekleyecektir. Verilerin işlenmesinden sonra, sonuçlar daha fazla analiz için HDFS'ye kaydedilecektir.

Sonuç

Bu öğreticide, Hadoop'un ne olduğunu, RDBMS ile Hadoop arasındaki farkları, Avantajları, Bileşenleri ve Hadoop Mimarisini öğrendik.

Bu çerçeve, büyük verilerin işlenmesinden ve analiz edilmesinden sorumludur. MapReduce, YARN ve HDFS'nin kümede çalıştığını gördük.

Not: Aşağıdakiler, Ad Düğümü ve Veri Düğümünün Yapılandırma ayrıntılarıdır. İkincil İsim Düğümü, İsim Düğümü ile aynı konfigürasyona sahip olacaktır.

Ad Düğüm Yapılandırması:

İşlemciler: 2 GHz'de çalışan 2 Dört Çekirdekli CPU
RAM: 128 GB
Disk: 6 x 1TB SATA
Ağ: 10 Gigabit Ethernet

Veri Düğümü Yapılandırması:

İşlemciler: 2 GHz'de çalışan 2 Dört Çekirdekli CPU
RAM: 64 GB
Disk: 12-24 x 1TB SATA
Ağ: 10 Gigabit Ethernet

=> Büyük Veri Yeni Başlayanlar Kılavuzuna Bir Göz Atın.

Hadoop nedir? Yeni Başlayanlar İçin Apache Hadoop Eğitimi

Hadoop nedir?

Hadoop Vs RDMBS

Hadoop Özellikleri

Hadoop Mimarisi

# 1) Ad Düğümü

# 2) Veri Düğümü

# 3) İkincil İsim Düğümü

# 4) Bloklar

Sonuç

Önerilen Kaynaklar

Ilginç Haberler

Editörün Seçimi

Starfield'da arkadaşınızın yakınlık düzeylerini nasıl kontrol edebilirsiniz?

Gunman Clive konuk yıldız statüsüne ulaştı

Deneyim puanları. 05: Şeytan'ın Ruhları

Bu harika Moving Memo Pad DSi animasyonlarına göz atın

Bana Söyle Neden Dontnod'un bir sonraki projesi, özdeş ikizler ve transseksüel kimlik hakkında bir oyun

Bu hafta ne oynuyordun, Destructoid?

İnceleme: FRAMED Koleksiyonu

TestLodge Test Yönetim Aracı Geribildiriminizle Nasıl Geliştirildi?

İnceleme: LittleBigPlanet 3

Dragon Ball FighterZ'in tanıtım filmine göz atın ve Beerus ile gıcırdatıyorum

Acı sos mu? tabiki ısırırım

Scarlet & Violet'teki en iyi hayalet tipi Pokémon