what is etl extract
ETL Süreci ile ilgili Bu Derinlemesine Eğitim, Veri Ambarındaki ETL (Çıkarma, Dönüştürme ve Yükleme) Sürecinde Yer Alan Süreç Akışını ve Adımları Açıklar:
Dizideki bu eğitici şunları açıklar: ETL Süreci nedir? Veri Çıkarma, Dönüştürme, Yükleme, Düz Dosyalar, Hazırlama Nedir? ETL Döngüsü vb.
Hadi başlayalım!!
=> Mükemmel Veri Ambarlama Eğitim Kılavuzuna Buradan Bakabilirsiniz.
Ne öğreneceksin:
- ETL (Çıkar, Dönüştür, Yükle) Süreç Temelleri
- Sonuç
ETL (Çıkar, Dönüştür, Yükle) Süreç Temelleri
Hedef kitle
- Veri ambarı / ETL geliştiricileri ve test edicileri.
- Veritabanı kavramları hakkında temel bilgiye sahip veritabanı uzmanları.
- Veri ambarı / ETL alanlarını anlamak isteyen veritabanı yöneticileri / büyük veri uzmanları.
- Veri ambarı işleri arayan üniversite mezunları / Freshers.
Veri Ambarı'nda ETL Süreci Nedir?
Veri ambarının, İş Zekası araçlarının yardımıyla iş kullanıcılarına bilgi sağlamak için büyük hacimli verilerden oluşan bir koleksiyon olduğunu hepimiz biliyoruz.
Bu amaca hizmet etmek için DW düzenli aralıklarla yüklenmelidir. Sistemdeki veriler bir veya daha fazla işletim sisteminden, düz dosyalardan vb. Toplanır. Verileri DW'ye getiren süreç ETL Süreci olarak bilinir . Çıkarma, Dönüştürme ve Yükleme ETL'nin görevleridir.
# 1) Çıkarma: Veritabanları, uygulamalar ve düz dosyalar gibi çeşitli kaynak sistemlerden tercih edilen tüm veriler tanımlanır ve çıkarılır. Veri çıkarma, mesai saatleri dışındaki işler çalıştırılarak tamamlanabilir.
# 2) Dönüşüm: Çıkarılan verilerin çoğu doğrudan hedef sisteme yüklenemez. İş kurallarına bağlı olarak, veriler yüklenmeden önce bazı dönüşümler yapılabilir.
Örneğin, bir hedef sütun verileri, iki kaynak sütunun verileri girdi olarak birleştirmesini bekleyebilir. Benzer şekilde, uzmanlık gerektiren veri dönüşümü için karmaşık bir mantık olabilir. Herhangi bir dönüşüm gerektirmeyen bazı veriler doğrudan hedef sisteme taşınabilir.
Dönüştürme işlemi ayrıca verileri düzeltir, yanlış verileri kaldırır ve yüklemeden önce verilerdeki hataları düzeltir.
# 3) Yükleme: Toplanan tüm bilgiler hedef Veri Ambarı tablolarına yüklenir.
Veri Çıkarma
Veri çıkarma, başarılı bir DW sistemi tasarlamada önemli bir rol oynar. Farklı kaynak sistemleri, farklı veri özelliklerine sahip olabilir ve ETL süreci, verileri çıkarırken bu farklılıkları etkili bir şekilde yönetecektir.
' Mantıksal veri haritası 'Veri çıkarma için temel bir belgedir. Bu, hangi kaynak verilerin hangi hedef tabloya gitmesi gerektiğini ve kaynak alanların ETL işleminde ilgili hedef tablo alanlarıyla nasıl eşlendiğini gösterir.
Mantıksal Veri Haritası Tasarımı sırasında gerçekleştirilecek adımlar aşağıdadır:
- Bir Veri ambarı mimarı, mantıksal veri haritası belgesini tasarlar.
- Bu belgeye başvurarak, ETL geliştiricisi ETL işleri oluşturacak ve ETL test uzmanları da test senaryoları oluşturacaktır.
- Tüm özel veri kaynakları ve iş kararlarını destekleyen ilgili veri unsurları bu belgede belirtilecektir. Bu veri öğeleri, çıkarma işlemi sırasında girdi olarak hareket edecektir.
- Tüm kaynak sistemlerden gelen veriler analiz edilir ve her türlü veri anormalliği belgelenir, böylece bu, yanlış verilerin DW'ye alınmasını durdurmak için doğru iş kurallarının tasarlanmasına yardımcı olur. Bu tür veriler burada kendisi reddedilir.
- Nihai kaynak ve hedef veri modeli, ETL mimarları ve iş analistleri tarafından tasarlandıktan sonra, ETL geliştiricileri ve test uzmanları ile bir gezinti yapabilirler. Böylelikle, Çıkarma, Dönüştürme ve Yüklemenin her aşamasında iş kurallarının nasıl uygulanması gerektiğini net bir şekilde anlayacaklar.
- Bu belgedeki eşleme kurallarını inceleyerek, ETL mimarları, geliştiricileri ve test uzmanları, verilerin boyutlar, gerçekler ve diğer tablolar olarak her tablodan nasıl aktığını iyi anlamış olmalıdır.
- Yanlış verilerin çıkarılmasını önlemek için her türlü veri işleme kuralları veya formülleri de burada belirtilmiştir. Örneğin, yalnızca son 40 günlük verileri çıkarın vb.
- DW'ye yüklenecek her yararlı kaynak sistemi, tablo ve sütun verilerini ortaya çıkarmak, iş gereksinimlerine göre verileri ayrıntılı olarak incelemek ETL ekibinin sorumluluğundadır.
Mantıksal veri haritası belgesi genellikle aşağıdaki bileşenleri gösteren bir elektronik tablodur:
(tablo “” bulunamadı /)Ekstraksiyon Akış Şeması:
Çıkarma döngüsü sırasında hiçbir kaynak verisinin kaçırılmaması için işleri her bir kaynak sistemde önceden çalıştırmak için zaman penceresi hakkında bilgi verin.
Yukarıdaki adımlarla, ayıklama, farklı kaynaklardaki farklı biçimlerdeki verileri tek bir DW biçimine dönüştürme hedefine ulaşır ve bu da tüm ETL süreçlerine fayda sağlar. Bu tür mantıksal olarak yerleştirilmiş veriler, daha iyi analiz için daha kullanışlıdır.
Veri Ambarında Çıkarma Yöntemleri
Kaynak ve hedef veri ortamlarına ve iş gereksinimlerine bağlı olarak, DW'nize uygun çıkarma yöntemini seçebilirsiniz.
# 1) Mantıksal Ekstraksiyon Yöntemleri
Bir Veri ambarı sistemindeki veri çıkarma, başlangıçta yapılan tek seferlik bir tam yük olabilir (veya), sürekli güncellemelerle her seferinde meydana gelen artımlı yükler olabilir.
java ile kavanoz nasıl açılır
- Tam Çıkarma: Adından da anlaşılacağı gibi, kaynak sistem verileri tamamen hedef tabloya çıkarılır. Bu tür bir ayıklama her seferinde, en son çıkarılan zaman damgalarını dikkate almadan tüm geçerli kaynak sistem verilerini yükler. Tercihen, ilk yüklemeler veya daha az veriye sahip tablolar için tam ayıklamayı kullanabilirsiniz.
- Artımlı Ekstraksiyon: Belirli bir tarihten itibaren eklenen / değiştirilen veriler, artımlı ekstraksiyon için dikkate alınacaktır. Bu tarih, son çıkarılan tarih (veya) son sipariş tarihi vb. Olarak işletmeye özgüdür. Kaynak tablonun kendisinden bir zaman damgası sütununa başvurabiliriz (veya) yalnızca çıkarma tarih ayrıntılarını izlemek için ayrı bir tablo oluşturulabilir. Zaman damgasına atıfta bulunmak, Artımlı ekstraksiyon sırasında önemli bir yöntemdir. DW tablosunda büyük veri varsa, zaman damgası olmayan mantık başarısız olabilir.
# 2) Fiziksel Ekstraksiyon Yöntemleri
Kaynak sistemlerin yeteneklerine ve verilerin sınırlamalarına bağlı olarak, kaynak sistemler verileri çevrimiçi ayıklama ve çevrimdışı çıkarma olarak fiziksel olarak ayıklama için sağlayabilir. Bu, herhangi bir mantıksal çıkarma türünü destekler.
- Çevrimiçi Çıkarma :: Verileri doğrudan kaynak sistem tablolarından çıkarmak için herhangi bir kaynak sistem veritabanına bağlantı dizeleri ile doğrudan bağlanabiliriz.
- Çevrimdışı Çıkarma :: Burada doğrudan kaynak sistem veritabanına bağlanmayacağız, bunun yerine kaynak sistem verileri önceden tanımlanmış bir yapıda açıkça sağlar. Kaynak sistemler, Düz dosyalar, Döküm dosyaları, Arşiv günlükleri ve Tablo Alanları şeklinde veri sağlayabilir.
ETL araçları, pahalı olsalar da DW için herhangi bir sayıda karmaşık veri çıkarma işlemini gerçekleştirmek için en uygun olanıdır.
Değişen Verileri Çıkarma
İlk yükleme tamamlandıktan sonra, değiştirilen verilerin kaynak sistemden daha fazla nasıl çıkarılacağını düşünmek önemlidir. ETL Süreci ekibi, projenin başlangıcında ilk yüklemeler ve artan yükler için çıkarmanın nasıl uygulanacağına dair bir plan tasarlamalıdır.
Çoğunlukla, veri değişikliklerini yakalamak için artımlı yükleme için 'Denetim sütunları' stratejisini düşünebilirsiniz. Genel olarak, kaynak sistem tabloları, her ekleme (veya) değişiklik için zaman damgasını saklayan denetim sütunları içerebilir.
Zaman damgası, uygulamanın kendisinden veritabanı tetikleyicileri (veya) tarafından doldurulabilir. Artımlı yüklemeler için değiştirilen verileri kaçırmamak için, herhangi bir şekilde yükleniyor olsalar bile denetim sütunlarının verilerinin doğruluğundan emin olmalısınız.
Artımlı yükleme sırasında, son yüklemenin gerçekleştiği maksimum tarih ve saati göz önünde bulundurabilir ve son yükleme zaman damgasından daha büyük bir zaman damgasına sahip kaynak sistemden tüm verileri çıkarabilirsiniz.
Verileri Çıkarırken:
- Yalnızca ihtiyacınız olan verileri almak için sorguları en iyi şekilde kullanın.
- Sorguların performansını yavaşlattığı için Distinct yan tümcesini fazla kullanmayın.
- Performansı düşürdüğü için Union, Minus, Intersect gibi SET operatörlerini dikkatli kullanın.
- Where cümlesinde substr (), to_char (), vb. Gibi işlevler yerine like, between, vb. Gibi karşılaştırma anahtar sözcükleri kullanın.
Veri Dönüşümü
Dönüşüm, kaynak sistem verilerini doğrudan hedef sisteme yüklemeden önce çıkarılan verilere bir dizi kuralın uygulandığı süreçtir. Çıkarılan veriler ham veri olarak kabul edilir.
Bir dizi standartla dönüşüm süreci, çeşitli kaynak sistemlerden tüm farklı verileri DW sistemindeki kullanılabilir verilere getirir. Veri dönüşümü, verilerin kalitesini hedefler. Tüm mantıksal dönüştürme kuralları için veri eşleme belgesine başvurabilirsiniz.
Herhangi bir kaynak verinin talimatları karşılamaması durumunda dönüştürme kurallarına bağlı olarak, bu tür kaynak veriler hedef DW sistemine yüklenmeden önce reddedilir ve bir reddetme dosyasına veya reddetme tablosuna yerleştirilir.
Kaynaktan hedefe düz yük sütunları verileri için (herhangi bir değişikliğe gerek yoktur) dönüştürme kuralları belirtilmez. Dolayısıyla, veri dönüşümleri basit ve karmaşık olarak sınıflandırılabilir. Veri dönüşümleri, sütun dönüştürmelerini, veri yapısını yeniden biçimlendirmeyi vb. İçerebilir.
Veri Dönüşümü sırasında gerçekleştirilecek görevlerden bazıları aşağıda verilmiştir:
# 1) Seçim: Kaynak sistemlerden tüm tablo verilerini veya belirli bir sütun verileri kümesini seçebilirsiniz. Veri seçimi genellikle Çıkarma işleminin kendisinde tamamlanır.
Kaynak sistemin, çıkarma aşaması sırasında belirli bir sütun verilerinin seçilmesine izin vermediği, ardından tüm verileri çıkarıp dönüştürme aşamasında seçimi yaptığı durumlar olabilir.
# 2) Bölme / birleştirme: Seçili verileri bölerek veya birleştirerek işleyebilirsiniz. Dönüştürme sırasında seçilen kaynak verileri daha da fazla bölmeniz istenecektir.
Örneğin, adresin tamamı kaynak sistemdeki tek bir büyük metin alanında saklanıyorsa, DW sistemi adresi şehir, eyalet, posta kodu vb. olarak ayrı alanlara bölmeyi isteyebilir. Bu, her birine dayalı olarak indeksleme ve analiz için kolaydır. tek tek bileşen.
İki veya daha fazla sütunun birleştirilmesi / birleştirilmesi ise DW sisteminde dönüşüm aşamasında yaygın olarak kullanılmaktadır. Bu, iki alanı tek bir alanda birleştirmek anlamına gelmez.
Örneğin, Belirli bir varlık hakkındaki bilgiler birden fazla veri kaynağından geliyorsa, bilgilerin tek bir varlık olarak toplanması, verilerin birleştirilmesi / birleştirilmesi olarak adlandırılabilir.
# 3) Dönüşüm: Çıkarılan kaynak sistem verileri her veri türü için farklı formatlarda olabilir, bu nedenle çıkarılan tüm verilerin dönüştürme aşamasında standart bir formata dönüştürülmesi gerekir. Aynı tür formatın anlaşılması ve iş kararları için kullanımı kolaydır.
# 4) Özetleme: Bazı durumlarda DW, kaynak sistemlerden düşük seviyeli ayrıntılı veriler yerine özetlenmiş verileri arayacaktır. Çünkü düşük seviyeli veriler, iş kullanıcıları tarafından analiz ve sorgulama için en uygun değildir.
Örneğin, Her ödeme için satış verileri DW sistemi tarafından istenmeyebilir, günlük yan ürün satışları (veya) mağazanın günlük satışları yararlıdır. Bu nedenle verilerin özetlenmesi, iş gereksinimlerine göre dönüşüm aşamasında gerçekleştirilebilir.
# 5) Zenginleştirme: Birden fazla kayıttan bir veya daha fazla sütunun birleştirilmesiyle bir DW sütunu oluşturulduğunda, veri zenginleştirme, DW sistemindeki verilerin daha iyi bir görünümü için alanları yeniden düzenleyecektir.
# 6) Düzeltmeleri biçimlendirin: Biçim revizyonları en sık dönüşüm aşamasında gerçekleşir. Veri türü ve uzunluğu her sütun için gözden geçirilir.
Örneğin, bir kaynak sistemdeki bir sütun sayısal olabilir ve başka bir kaynak sistemdeki aynı sütun bir metin olabilir. Bunu standartlaştırmak için, dönüştürme aşamasında bu sütunun veri türü metin olarak değiştirilir.
# 7) Alanların kodunu çözme: Birden çok kaynak sisteminden veri çıkarırken, çeşitli sistemlerdeki verilerin kodu farklı şekilde çözülebilir.
Örneğin, bir kaynak sistem müşteri durumunu AC, IN ve SU olarak gösterebilir. Başka bir sistem 1, 0 ve -1 ile aynı durumu temsil edebilir.
Veri dönüştürme aşamasında, bu tür kodları iş kullanıcıları tarafından anlaşılabilecek uygun değerlere dönüştürmeniz gerekir. Bu nedenle, yukarıdaki kodlar Aktif, Aktif Değil ve Askıya Alındı olarak değiştirilebilir.
# 8) Hesaplanan ve türetilen değerler: DW, kaynak sistem verilerini dikkate alarak, hesaplamalar için ek sütun verilerini depolayabilir. DW'ye kaydetmeden önce iş mantığına göre hesaplamaları yapmanız gerekir.
# 9) Tarih / Saat dönüşümü: Bu, üzerinde yoğunlaşılması gereken temel veri türlerinden biridir. Tarih / saat biçimi, çoklu kaynak sistemlerinde farklı olabilir.
Örneğin, bir kaynak tarihi 10 Kasım 1997 olarak saklayabilir. Başka bir kaynak aynı tarihi 11/10/1997 biçiminde saklayabilir. Bu nedenle, veri dönüşümü sırasında tüm tarih / saat değerleri standart bir formata dönüştürülmelidir.
# 10) Tekilleştirme: Kaynak sistemin yinelenen kayıtları olması durumunda, DW sistemine yalnızca bir kaydın yüklendiğinden emin olun.
Dönüşüm Akış Şeması:
Dönüşüm Nasıl Gerçekleştirilir?
Veri dönüşümlerinin karmaşıklığına bağlı olarak, manuel yöntemleri, dönüştürme araçlarını (veya) hangisinin etkili olduğuna göre kombinasyonunu kullanabilirsiniz.
# 1) Manuel Teknikler
Küçük DW sistemleri için manuel teknikler yeterlidir. Veri analistleri ve geliştiricileri, verileri manuel olarak dönüştürmek için programlar ve komut dosyaları oluşturacaklar. Bu yöntem, kodun her bölümü için ayrıntılı test gerektirir.
Veri hacimlerindeki artışla birlikte hata alma ihtimalinden dolayı iş kurallarında meydana gelen değişiklikler (veya) nedeniyle bakım maliyeti yüksek olabilir. Başlangıçta meta verilerle ve ayrıca dönüşüm kurallarında meydana gelen her değişiklikle ilgilenmelisiniz.
# 2) Dönüşüm Araçları
Dönüşüm sürecinin çoğunu otomatikleştirmek istiyorsanız, proje için mevcut bütçe ve zaman çerçevesine bağlı olarak dönüşüm araçlarını kullanabilirsiniz. Otomatikleştirirken, araçları seçmek, yapılandırmak, kurmak ve DW sistemi ile entegre etmek için kaliteli zaman harcamalısınız.
Araçların kendisiyle pratikte tam bir dönüşüm manuel müdahale olmadan mümkün değildir. Ancak araçlar tarafından dönüştürülen veriler kesinlikle verimli ve doğrudur.
Bunu başarmak için, dönüşüm aracına girdi olarak uygun parametreleri, veri tanımlarını ve kuralları girmeliyiz. Verilen girdilerden, aracın kendisi meta verileri kaydedecek ve bu meta veriler, genel DW meta verilerine eklenecektir.
İş kurallarında herhangi bir değişiklik varsa, o zaman bu değişiklikleri araca girin, dönüşüm değişikliklerinin geri kalanı aracın kendisi tarafından halledilecektir. Bu nedenle, her iki yöntemin bir kombinasyonunun kullanılması etkilidir.
Veri Yükleme
Çıkarılan ve dönüştürülen veriler, ETL işleminin Yükleme aşamasında hedef DW tablolarına yüklenir. İşletme, her tablo için yükleme işleminin nasıl olması gerektiğine karar verir.
Yükleme işlemi aşağıdaki şekillerde gerçekleşebilir:
- İlk yükleme: İlgili DW tablolarını ilk kez doldurmak için verileri yükleme.
- Artımlı yük: DW tabloları yüklendikten sonra, devam eden değişikliklerin geri kalanı periyodik olarak uygulanır.
- Tam yenileme: Kullanımda olan herhangi bir tablonun yenilenmesi gerekiyorsa, o tablodaki mevcut veriler tamamen kaldırılır ve ardından yeniden yüklenir. Yeniden yükleme, ilk yüklemeye benzer.
ETL'deki yükleme sürecini daha iyi anlamak için aşağıdaki örneğe bakın:
ürün kimliği | Ürün adı | Satış Tarihi |
---|---|---|
1 | Dilbilgisi kitabı | 3 Haziran 2007 |
iki | İşaretleyici | 3 Haziran 2007 |
3 | Sırt çantası | 4 Haziran 2007 |
4 | Kap | 4 Haziran 2007 |
5 | Ayakkabı | 5 Haziran 2007 |
# 1) İlk yükleme sırasında, 3'te satılan verilerrdYukarıdaki tablodaki ilk veriler olduğu için Haziran 2007 DW hedef tablosuna yüklenir.
#iki) Artımlı yükleme sırasında 3'ten sonra satılan verileri yüklememiz gerekir.rdHaziran 2007. Satış tarihi bir sonraki gün için önceki tarihten (>) büyük olan tüm kayıtları dikkate almalıyız. Dolayısıyla, 4'teinciHaziran 2007, satış tarihi> 3 olan tüm kayıtları getirrdHaziran 2007, sorguları kullanarak ve yukarıdaki tablodan yalnızca bu iki kaydı yükleyin.
5 günüinciHaziran 2007, satış tarihi> 4 olan tüm kayıtları getirinciHaziran 2007 ve yukarıdaki tablodan yalnızca bir kayıt yükleyin.
# 3) Tam yenileme sırasında, yukarıdaki tablo verilerinin tümü, satılma tarihine bakılmaksızın tek seferde DW tablolarına yüklenir.
Yüklenen veriler, ilgili boyut (veya) olgu tablolarında saklanır. Veriler aşağıdaki şekilde DW tablolarına yüklenebilir, eklenebilir veya birleştirilebilir:
# 4) Yük: Veriler boşsa hedef tabloya yüklenir. Tabloda bazı veriler varsa, mevcut veriler kaldırılır ve ardından yeni verilerle yüklenir.
Örneğin,
Mevcut Tablo Verileri
İşçi adı | Rol |
---|---|
John | Yönetici |
Revanth | Öncülük etmek |
Bob | Müdür Yardımcısı |
Ronald | Geliştirici |
Değişen Veriler
İşçi adı | Rol |
---|---|
John | Yönetici |
Rohan | yönetmen |
Chetan | AVP |
Başkan Yardımcısı |
Yükleme Sonrası Veriler
İşçi adı | Rol |
---|---|
John | Yönetici |
Rohan | yönetmen |
Chetan | AVP |
Başkan Yardımcısı |
# 5) Ekle: Ekleme, halihazırda mevcut tablolar üzerinde çalıştığı için yukarıdaki yükün bir uzantısıdır. Hedef tablolarda Ekle, mevcut verilere daha fazla veri ekler. Giriş verileriyle birlikte herhangi bir yinelenen kayıt bulunursa, yinelenen kayıt olarak eklenebilir (veya) reddedilebilir.
Örneğin,
Mevcut Tablo Verileri
İşçi adı | Rol |
---|---|
John | Yönetici |
Revanth | Öncülük etmek |
Değişen Veriler
daha yeni olanlar için sql röportaj soruları ve cevapları
İşçi adı | Rol |
---|---|
John | Yönetici |
Rohan | yönetmen |
Chetan | AVP |
Başkan Yardımcısı |
Ekledikten Sonra Veriler
İşçi adı | Rol |
---|---|
John | Yönetici |
Revanth | Öncülük etmek |
Rohan | yönetmen |
Chetan | AVP |
Başkan Yardımcısı |
# 6) Yıkıcı birleştirme: Burada gelen veriler, birincil anahtara dayalı olarak mevcut hedef verilerle karşılaştırılır. Bir eşleşme varsa, mevcut hedef kaydı güncellenir. Eşleşme bulunmazsa, hedef tabloya yeni bir kayıt eklenir.
Örneğin,
Mevcut Tablo Verileri
İşçi adı | Rol |
---|---|
John | Yönetici |
Revanth | Öncülük etmek |
Değişen Veriler
İşçi adı | Rol |
---|---|
John | Yönetici |
Revanth | yönetmen |
Chetan | AVP |
Başkan Yardımcısı |
Yapıcı Birleştirme Sonrası Veriler
İşçi adı | Rol |
---|---|
John | Yönetici |
Revanth | yönetmen |
Chetan | AVP |
Başkan Yardımcısı |
# 7) Yapıcı: Yıkıcı birleştirmenin aksine, mevcut kayıtla bir eşleşme varsa, mevcut kaydı olduğu gibi bırakır ve gelen kaydı ekler ve bu birincil anahtara göre en son veri (zaman damgası) olarak işaretler.
Örneğin,
Mevcut Tablo Verileri
İşçi adı | Rol |
---|---|
John | Yönetici |
Revanth | Öncülük etmek |
Değişen Veriler
İşçi adı | Rol |
---|---|
John | Yönetici |
Revanth | yönetmen |
Chetan | AVP |
Başkan Yardımcısı |
Yapıcı Birleştirme Sonrası Veriler
İşçi adı | Rol |
---|---|
John | Yönetici |
Revanth | Yönetmen *** |
Revanth | Öncülük etmek |
Chetan | AVP |
Başkan Yardımcısı |
Teknik olarak yenileme, verileri güncellemekten daha kolaydır. Güncelleme yalnızca belirli değişiklikleri çıkarmak ve bunları DW sistemine uygulamak için özel bir stratejiye ihtiyaç duyarken, Yenileme yalnızca verileri değiştirir. Ancak verilerin yenilenmesi, veri hacimlerine bağlı olarak daha uzun sürer.
Günlük çalıştırılacak bu tür yenileme işleriniz varsa, verileri yüklemek için DW sistemini kapatmanız gerekebilir. Her seferinde verileri yüklemek için tüm DW sistemini indirmek yerine, verileri birkaç dosya biçiminde bölebilir ve yükleyebilirsiniz.
Test sırasında her yük için çalışma süresini not edin. Herhangi bir veri, herhangi bir anahtar uyuşmazlığı vb. Nedeniyle DW sistemine yüklenemiyorsa, onlara bu tür verileri işlemenin yollarını verin. Yüklenen verilerin kapsamlı bir şekilde test edildiğinden emin olun.
Yükleme Akış Şeması:
Düz Dosyalar
Düz dosyalar, farklı kaynak işletim sistemlerinden ve farklı kaynak veritabanı sistemlerinden Veri ambarı uygulamalarına kadar heterojen sistemler arasında veri alışverişi yapmak için yaygın olarak kullanılır. Düz dosyalar, homojen sistemler için de en verimli ve yönetimi kolaydır.
Düz dosyalar öncelikle aşağıdaki amaçlar için kullanılır:
# 1) Kaynak verilerin teslimi: Güvenlik nedeniyle DW kullanıcılarının veritabanlarına erişmesine izin vermeyecek birkaç kaynak sistemi olabilir. Bu tür durumlarda veriler düz dosyalar aracılığıyla gönderilir.
Benzer şekilde, veriler dış satıcılardan veya ana bilgisayar sistemlerinden esasen düz dosyalar biçiminde elde edilir ve bunlar ETL kullanıcıları tarafından FTP’ye dönüştürülür.
# 2) Çalışma / aşama tabloları: ETL süreci, dahili amacı için aşama tabloları oluşturur. Hazırlama tablolarının düz dosyalarla ilişkilendirilmesi DBMS'den çok daha kolaydır çünkü bir dosya sistemine okuma ve yazma işlemleri, bir veritabanı eklemekten ve sorgulamaktan daha hızlıdır.
# 3) Toplu yükleme için hazırlık: Çıkarma ve Dönüştürme işlemleri tamamlandıktan sonra, Yayın içi toplu yükleme ETL aracı tarafından desteklenmiyorsa (veya) Verileri arşivlemek istiyorsanız, bir düz dosya oluşturabilirsiniz. Bu düz dosya verileri işlemci tarafından okunur ve verileri DW sistemine yükler.
Düz dosyalar, 'Sabit uzunlukta düz dosyalar' ve 'Sınırlandırılmış düz dosyalar' olarak iki şekilde oluşturulabilir. Düz dosyalar, kaynak sistem için çalışan programcılar tarafından oluşturulabilir.
Bakalım bu düz dosyaları nasıl işliyoruz:
Sabit Uzunluktaki Düz Dosyaları İşleme
Genel olarak, düz eğeler sabit uzunluklu sütunlardır, dolayısıyla bunlar Konumsal düz dosyalar olarak da adlandırılır. Aşağıda, bir dosyadaki tam alanları ve konumlarını gösteren düz bir dosyanın düzeni bulunmaktadır.
Alan adı | Uzunluk | Başlat | Son | Tür | Yorumlar |
---|---|---|---|---|---|
İsim | 10 | 1 | 10 | Metin | Müşterinin adı |
İkinci ad | 5 | on bir | on beş | Metin | Müşterinin ikinci adı |
Soyadı | 10 | 16 | 25 | Metin | Müşterinin soyadı |
Düzen şunları içerir: alan adı, uzunluk, başlangıç konumu alan karakterinin başladığı yer, alan karakterinin bittiği son konum, metin, sayısal vb. olarak veri türü ve varsa yorumlar.
Veri konumlarına bağlı olarak, ETL test ekibi verilerin doğruluğunu sabit uzunlukta düz bir dosyada onaylayacaktır.
Sınırlandırılmış Düz Dosyaları İşleme
Sınırlandırılmış Düz Dosyalarda, her bir veri alanı sınırlayıcılarla ayrılır. Bu sınırlayıcı, her alanın başlangıç ve bitiş konumunu gösterir. Genelde, sınırlayıcı olarak virgül kullanılır, ancak başka bir simge veya bir dizi simge de kullanabilirsiniz.
Sınırlandırılmış dosyalar .CSV uzantılı (veya) .TXT uzantılı (veya) olabilir. ETL dosyalarını oluşturan geliştiriciler, bu dosyayı işlemek için gerçek sınırlayıcı sembolünü gösterecektir. Sınırlandırılmış dosya düzeninde, ilk satır sütun adlarını temsil edebilir.
Konumsal düz dosyalarda olduğu gibi, ETL test ekibi, sınırlandırılmış düz dosya verilerinin doğruluğunu açıkça onaylayacaktır.
Evreleme Alanının Amacı
Aşama alanının temel amacı, verileri ETL süreci için geçici olarak depolamaktır. Evreleme alanı, DW sisteminin arka odası olarak adlandırılır. ETL mimarı, verileri hazırlama alanında depolayıp depolamayacağına karar verir.
Evreleme, verilerin kaynak sistemlerden çok hızlı alınmasına yardımcı olacaktır. Aynı zamanda, DW sisteminin arızalanması durumunda, aşamalı veriler zaten mevcutsa, kaynak sistemlerden veri toplayarak işlemi yeniden başlatmanız gerekmez.
Veri çıkarma işleminden sonra, verileri DW sisteminde aşamalandırmanın nedenleri şunlardır:
# 1) Kurtarılabilirlik: Doldurulmuş aşama tabloları DW veritabanının kendisinde saklanacaktır (veya) dosya sistemlerine taşınabilir ve ayrı olarak depolanabilir. Bir noktada, herhangi bir dönüştürme veya yükleme adımı başarısız olursa, hazırlama verileri kurtarma verileri olarak işlev görebilir.
Kaynak sistemin ETL için kullanılan verilerin üzerine yazmış olma ihtimali olabilir, bu nedenle çıkarılan verileri aşamada tutmak herhangi bir referans için bize yardımcı olur.
# 2) Yedekleme: Büyük hacimli DW veritabanı tablolarını yedeklemek zordur. Ancak, herhangi bir olağanüstü durum kurtarma işlemi için yedeklemeler bir zorunluluktur. Bu nedenle, verilerden çıkarılan aşama verilerine sahipseniz, işleri dönüştürme ve yükleme için çalıştırabilirsiniz, böylece çökmüş veriler yeniden yüklenebilir.
Aşama verilerini yedeklemek için, evreleme verilerini sık sık dosya sistemlerine taşıyabilirsiniz, böylece ağınızda sıkıştırılması ve depolanması kolaydır. Gerektiğinde dosyaları açın, aşamalı tablolara yükleyin ve DW tablolarını yeniden yüklemek için işleri çalıştırın.
# 3) Denetim: Bazen kaynak sistem ile hedef sistem arasındaki veri bağlantısını kontrol etmek için ETL sisteminde bir denetim gerçekleştirilebilir. Denetçiler, orijinal girdi verilerini, dönüşüm kurallarına dayalı olarak çıktı verilerine göre doğrulayabilir.
Hazırlama verileri ve yedeklenmesi, kaynak sistemde veriler mevcut olsa da olmasa da burada çok faydalıdır. Denetim herhangi bir zamanda ve mevcut (veya) geçmiş verilerin herhangi bir döneminde gerçekleştirilebileceğinden. Evreleme alanının mimarisi iyi planlanmalıdır.
Evreleme Alanını Tasarlama
Veri ambarında, aşama alanı verileri aşağıdaki gibi tasarlanabilir:
Aşama tablolarına her yeni veri yüklemesiyle, mevcut veriler silinebilir (veya) referans için geçmiş veriler olarak saklanabilir. Veriler silinirse buna 'Geçici aşamalandırma alanı' denir.
Veriler geçmiş olarak tutulursa, buna 'Kalıcı evreleme alanı' denir. Ayrıca, yukarıdaki iki türün kombinasyonu olan “Hibrit” olan bir evreleme alanı tasarlayabilirsiniz.
Aşama alanını tasarlarken bilinmesi gereken temel kurallar şunlardır:
- Veri hazırlama alanına yalnızca ETL ekibinin erişimi olmalıdır. Aşama verilerinin sorgulanması diğer kullanıcılarla sınırlıdır.
- Aşama alanındaki tablolar, başka herhangi bir kullanıcı dahil edilmeden ETL veri mimarı tarafından eklenebilir, değiştirilebilir veya çıkarılabilir. Hazırlama alanı rapor üretmek için bir sunum alanı olmadığından, sadece bir çalışma tezgahı görevi görür.
- ETL mimarı, ayrıntıları DBA ve işletim sistemi yöneticilerine sağlamak için hazırlama alanının veri depolama ölçüsünü tahmin etmelidir. Yöneticiler, aşamalı veritabanları, dosya sistemleri, dizinler vb. İçin alan ayıracaktır.
Hazırlama alanı ve DW veritabanı aynı sunucuyu kullanıyorsa, verileri kolayca DW sistemine taşıyabilirsiniz. Sunucular farklıysa, FTP (veya) veritabanı bağlantılarını kullanın.
ETL Süreç Akışı
Standart bir ETL döngüsü aşağıdaki işlem adımlarından geçecektir:
- İşleri sırayla çalıştırmak için ETL döngüsünü başlatın.
- Tüm meta verilerin hazır olduğundan emin olun.
- ETL döngüsü, verileri çeşitli kaynaklardan çıkarmaya yardımcı olur.
- Çıkarılan verileri doğrulayın.
- Aşama tabloları kullanılıyorsa, ETL döngüsü verileri aşamalandırmaya yükler.
- ETL, iş kurallarını uygulayarak, kümeler oluşturarak vb. Dönüşümler gerçekleştirir.
- Herhangi bir arıza varsa, ETL döngüsü onu raporlar şeklinde bildirecektir.
- Ardından ETL döngüsü verileri hedef tablolara yükler.
- Tarihsel referans için saklanması gereken önceki veriler arşivlenir.
- Depolanması gerekmeyen verilerin geri kalanı temizlenir.
ETL Süreç Akış Şeması:
Sonuç
Bu eğiticide, Veri Ambarı'ndaki ETL Süreci'nin ana kavramlarını öğrendik. Şimdiye kadar, Veri Çıkarma, Veri Dönüştürme, Veri Yükleme ve ETL işlem akışının ne olduğunu anlayabilmelisiniz.
Veri Ambarı Testi hakkında daha fazla bilgi edinmek için gelecek öğreticiyi okuyun !!
=> Özel Veri Ambarlama Serisi İçin Burayı Ziyaret Edin.
Önerilen Kaynaklar
- Örneklerle Veri Ambarı Test Eğitimi | ETL Test Kılavuzu
- ETL Sürecinde Yararlı En İyi 10 Veri Eşleme Aracı (2021 LİSTESİ)
- ETL Test Veri Ambarı Test Eğitimi (Tam Kılavuz)
- Veri Madenciliği: Veri Analizinde Süreç, Teknikler ve Başlıca Sorunlar
- Veri Madenciliği Süreci: Modeller, Süreç Adımları ve İlgili Zorluklar
- ETL Test Mülakat Soruları ve Cevapları
- 2021'de En İyi 10 ETL Test Aracı
- En Popüler 10 Veri Ambarı Araçları ve Test Teknolojileri