Dil Seçin

Turkish

Down Icon

Ülke Seçin

England

Down Icon

Databricks'in açık kaynaklı bildirimsel ETL çerçevesi %90 daha hızlı boru hattı yapılarını destekliyor

Databricks'in açık kaynaklı bildirimsel ETL çerçevesi %90 daha hızlı boru hattı yapılarını destekliyor

Yaklaşık yirmi yıldır kurumsal liderlerin güvendiği etkinliğe katılın. VB Transform, gerçek kurumsal AI stratejisi oluşturan insanları bir araya getiriyor. Daha fazla bilgi edinin

Databricks , bugün düzenlediği yıllık Data + AI Zirvesi'nde temel bildirimsel ETL çerçevesini Apache Spark Bildirimsel Boru Hatları olarak açık kaynaklı hale getirdiğini ve önümüzdeki sürümde tüm Apache Spark topluluğunun kullanımına sunacağını duyurdu.

Databricks, çerçeveyi 2022'de Delta Live Tables (DLT) olarak başlattı ve o zamandan beri ekiplerin uçtan uca güvenilir, ölçeklenebilir veri hatları oluşturmasına ve işletmesine yardımcı olmak için genişletti . Açık kaynaklı hale getirilmesi, şirketin açık ekosistemlere olan bağlılığını güçlendirirken, yakın zamanda veri entegrasyonu için kendi Openflow hizmetini başlatan rakip Snowflake'u geride bırakma çabasını da işaret ediyor; bu, veri mühendisliğinin önemli bir bileşenidir.

Snowflake'un sunduğu çözüm, herhangi bir kaynaktan gelen tüm verileri platformunda merkezileştirmek için Apache NiFi'den yararlanırken, Databricks kendi bünyesindeki veri hattı mühendisliği teknolojisini açık hale getirerek kullanıcıların bunu yalnızca kendi platformunda değil, Apache Spark'ın desteklendiği her yerde çalıştırmasına olanak tanıyor.

Geleneksel olarak, veri mühendisliği üç temel sorunla ilişkilendirilmiştir: karmaşık işlem hattı oluşturma, manuel işlem yükü ve toplu ve akış iş yükleri için ayrı sistemleri sürdürme ihtiyacı.

Spark Declarative Pipelines ile mühendisler SQL veya Python kullanarak boru hatlarının ne yapması gerektiğini açıklar ve Apache Spark yürütmeyi yönetir. Çerçeve tablolar arasındaki bağımlılıkları otomatik olarak izler, tablo oluşturma ve evrimini yönetir ve paralel yürütme, kontrol noktaları ve üretimde yeniden denemeler gibi operasyonel görevleri yönetir.

Databricks'in seçkin yazılım mühendisi Michael Armbrust, VentureBeat'e verdiği röportajda, "Bir dizi veri kümesi ve veri akışı bildiriyorsunuz ve Apache Spark doğru yürütme planını belirliyor" dedi.

Çerçeve, Amazon S3, ADLS veya GCS gibi nesne depolama sistemlerinden dosyalar dahil olmak üzere toplu, akışlı ve yarı yapılandırılmış verileri kutudan çıktığı haliyle destekler. Mühendislerin, sorunları erken yakalamak için yürütmeden önce boru hattı tanımlarının doğrulanmasıyla hem gerçek zamanlı hem de periyodik işlemeyi tek bir API üzerinden tanımlamaları yeterlidir; ayrı sistemleri sürdürmeye gerek yoktur.

Armbrust, "Değişim veri beslemeleri, mesaj veri yolları ve yapay zeka sistemlerini destekleyen gerçek zamanlı analizler gibi modern verilerin gerçekleri için tasarlandı. Apache Spark bunu (veriyi) işleyebiliyorsa, bu veri hatları da bunu halledebilir" diye açıkladı. Beyanlı yaklaşımın, Databricks'in Apache Spark'ı basitleştirme yönündeki son çabası olduğunu da sözlerine ekledi.

"Öncelikle, dağıtılmış bilişimi RDD'ler (Esnek Dağıtılmış Veri Kümeleri) ile işlevsel hale getirdik. Sonra sorgu yürütmeyi Spark SQL ile beyanlı hale getirdik. Aynı modeli Yapılandırılmış Akış ile akışa getirdik ve bulut depolamayı Delta Lake ile işlemsel hale getirdik. Şimdi, uçtan uca boru hatlarını beyanlı hale getirmenin bir sonraki adımını atıyoruz," dedi.

Bildirimsel işlem hattı çerçevesinin Spark kod tabanına dahil edilmesi planlanırken, bu çerçevenin ne kadar yetenekli olduğu, günlük toplu raporlamadan saniyenin altında akış uygulamalarına kadar çeşitli iş yüklerini yönetmek için Databricks'in Lakeflow çözümünün bir parçası olarak kullanan binlerce işletme tarafından zaten biliniyor.

Avantajlar genel olarak benzerdir: Boru hatları geliştirmek veya bakım görevleri için çok daha az zaman harcarsınız ve neyi optimize etmek istediğinize bağlı olarak çok daha iyi performans, gecikme veya maliyet elde edersiniz.

Finansal hizmetler şirketi Block, geliştirme süresini %90'ın üzerinde azaltmak için çerçeveyi kullanırken, Navy Federal Credit Union boru hattı bakım süresini %99 oranında azalttı. Beyanlı boru hatlarının oluşturulduğu Spark Yapılandırılmış Akış motoru, ekiplerin boru hatlarını gerçek zamanlı akışa kadar belirli gecikmelerine göre uyarlamasını sağlar.

Navy Federal Credit Union'da kıdemli mühendislik yöneticisi olan Jian Zhou, "Bir mühendislik yöneticisi olarak, mühendislerimin işletme için en önemli olan şeye odaklanabilmesini seviyorum" dedi. "Bu düzeydeki yeniliğin artık açık kaynaklı hale geldiğini ve daha fazla ekibe erişilebilir hale geldiğini görmek heyecan verici."

84.51°'de kıdemli veri mühendisi olan Brad Turnbaugh, ekibinin yönetmesi gereken kod miktarını azaltırken, çerçevenin "ayrı sistemleri bir araya getirmeden hem toplu hem de akışlı işlemleri desteklemeyi kolaylaştırdığını" belirtti.

Databricks'in en büyük rakiplerinden biri olan Snowflake, yakın zamanda düzenlediği konferansta veri zorluklarını ele almak için adımlar attı ve Openflow adlı bir alım hizmetini tanıttı. Ancak, kapsam açısından yaklaşımları Databricks'inkinden biraz farklı.

Apache NiFi üzerine inşa edilen Openflow, öncelikle veri entegrasyonuna ve Snowflake'un platformuna taşınmasına odaklanır. Kullanıcıların, Snowflake'a ulaştıktan sonra verileri temizlemeleri, dönüştürmeleri ve toplamaları gerekir. Öte yandan Spark Declarative Pipelines, kaynaktan kullanılabilir verilere geçerek daha da ileri gider.

Armbrust, "Spark Declarative Pipelines, kullanıcıların uçtan uca veri hatları oluşturmasını sağlamak için oluşturulmuştur. Bu sayede veri dönüşümünün basitleştirilmesine ve bu dönüşümlerin temelindeki karmaşık veri hattı işlemlerine odaklanılmıştır" dedi.

Spark Declarative Pipelines'ın açık kaynaklı yapısı onu tescilli çözümlerden de ayırır. Kullanıcıların teknolojiden yararlanmak için Databricks müşterisi olmaları gerekmez, bu da şirketin Delta Lake, MLflow ve Unity Catalog gibi büyük projeleri açık kaynaklı topluluğa sunma geçmişiyle uyumludur.

Apache Spark Declarative Pipelines, yaklaşan bir sürümde Apache Spark kod tabanına eklenecek. Ancak kesin zaman çizelgesi belirsizliğini koruyor.

Armbrust, "Başlattığımızdan beri bildirimsel boru hattı çerçevemizi açık kaynaklı hale getirme olasılığı bizi heyecanlandırıyor," dedi. "Son 3+ yıldır, en iyi çalışan kalıplar hakkında çok şey öğrendik ve ince ayar gerektirenleri düzelttik. Şimdi kanıtlanmış durumda ve açık alanda gelişmeye hazır."

Açık kaynak kodlu kullanıma sunulması aynı zamanda teknolojinin ticari versiyonu olan ve ek kurumsal özellikler ve destek içeren Databricks Lakeflow Declarative Pipelines'ın genel kullanıma sunulmasıyla da aynı zamana denk geliyor.

Databricks Data + AI Zirvesi 9-12 Haziran 2025 tarihleri ​​arasında gerçekleşecek

VB Daily ile iş kullanım örneklerine ilişkin günlük içgörüler

Patronunuzu etkilemek istiyorsanız, VB Daily sizin için burada. Şirketlerin üretken yapay zeka ile ilgili olarak düzenleyici değişikliklerden pratik dağıtımlara kadar neler yaptıklarına dair içeriden bilgiler veriyoruz, böylece maksimum yatırım getirisi için içgörüler paylaşabilirsiniz.

Gizlilik Politikamızı okuyun

Abone olduğunuz için teşekkürler. Daha fazla VB bültenine buradan göz atın.

Bir hata oluştu.

venturebeat

venturebeat

Benzer Haberler

Tüm Haberler
Animated ArrowAnimated ArrowAnimated Arrow