Dağıtık Depolama: RAID Devrinin Sonu

Dağıtık Depolama: RAID Devrinin Sonu

4 Mart 2018 Genel 0

Dağıtık Depolama: RAID Devrinin Sonu

RAID teknolojisi depolama sistemlerinin yıllardır en temel yapı taşıdır. Son 30 yıldır neredeyse her türlü verinin farklı RAID yapılarında saklanabildiği görülmüştür. Ancak her devrin bir sonu olduğu gibi RAID devrinin de sonu yaklaşmaktadır. Yeni nesil depolama ihtiyaçlarını karşılamada RAID tabanlı sistemlerin yetersizlikleri görülmeye başlanmıştır.

Disk boyutlarının her geçen gün büyümesi ile birlikte RAID tabanlı bir sistemde meydana gelen disk arızasında yeni disk üzerinden veri bütünlüğü için eşlik (parity) değerlerinin yeniden oluşturulma süresi giderek uzamakta ve gereken hesaplama gücü de aynı oranda artmaktadır. Örneğin günümüzde artık yaygın olarak kullanılmaya başlanan 8 veya 10 TB kapasiteli bir disk arızasında, disk değişiminin ardından veri bütünlüğünü koruma amaçlı eşlik bilgilerinin yeniden oluşturulması 18-20 saat aralığında sürmektedir. Bu esnada depolama sistemi üzerinde önemli bir hesaplama gücü kullanılmakta, bu da sistemin performansını hissedilir derecede yavaşlatmaktadır. Aynı anda bir disk daha bozulduğunda durum epey karışık hale gelmekte ve sistem performansı ciddi derecede düşmektedir. Benzer bir durum dağıtık mimarideki depolama sistemlerinde meydana geldiğinde etkisi oldukça sınırlı kalmakta, sistem tasarımı gereği performans üzerinde önemli bir etki görülmemektedir. Örneğin aynı kapasitedeki bir diskin RAID tabanlı sistemlerde 18-20 saat aralığında sürebilen onarma süresi 3 replika kullanan bir Ceph kümesinde sadece 2-3 saat aralığında tamamlanmaktadır. Ayrıca dağıtık mimarideki sistemlerde disklerin ağ üzerinde farklı sunucular üzerinde dağıtık biçimde kullanılması birden fazla disk arızasında veriyi tamamen kaybetme riskini minimize etmektedir.

Bununla birlikte, RAID tabanlı sistemlerde her RAID grubu için arıza anında arızalanan diskin yerini almak üzere “yedek disk” adı altında bir çok disk tamamıyla atıl halde bekletilmektedir. Bu da toplam kapasitenin kullanılabilir miktarını azaltmakta ve verimliliği düşürmektedir.

RAID teknolojisi ile çalışan sistemlerin başka bir dezavantajı, aynı RAID grubu içinde disklerin aynı tipte, aynı özellikte olmasını şart koşmalarıdır. Aynı grup içerisinde farklı dönüş hızında (5400 RPM, 7200 RPM, 10000 RPM gibi), farklı arabirime sahip (SATA, SAS, SSD) veya farklı kapasitede disklerin kullanılması konusunda katı limitler ve kurallar mevcuttur. Bunun aksine, dağıtık depolama sistemleri bu konuda oldukça esnek ve yönetilebilir bir altyapı sunmaktadır.

Geleneksel veya ticari RAID tabanlı çözümlerde talepleri sağlamak amacıyla RAID kartı olarak bilinen nispeten pahalı donanımlar da satın almak gerekmektedir. Bu da toplam sahip olma maliyetini (TCO) önemli ölçüde etkilemektedir. Dağıtık depolama çözümleri RAID teknolojisi kullanmadıkları için böyle bir karta ihtiyaç duymamakla birlikte kullanılacak disklerin işletim sistemi tarafından erişilebilecek şekilde (HBA, JBOD veya pass-through mode) sisteme eklenmesi yeterli olmaktadır.

RAID tabanlı sistemlerde sistemin büyüyebilmesi kullanılan RAID kartlarının kapasitesine bağlıdır. RAID kartlarına bağlanabilecek disk sayısı veya sistemde bulunan kontrol sunucusuna bağlanabilecek raf sayısı sınırlıdır. Dolayısı ile seçilen donanımın önceden bilinen sayıda diskin üzerine çıkabilmesi mümkün değildir. Bu limitlere ulaşılması halinde kullanılan sistem tamamıyla değişmekte ve yapılan yatırım kullanılamaz hale gelmekte, yeni ihtiyaçlar için ayrıca bir yatırım yapılma gereği doğmaktadır. Dağıtık depolama sistemlerinde ise sistem tasarımı yatayda büyüyebilecek şekilde yapılmıştır. Buna göre ihtiyaç ortaya çıktıkça sisteme istenilen sayıda diske sahip sunucu eklenerek kapasite arttırılabilmekte, bu konuda teorik bir sınır bulunmamaktadır. Ayrıca mimari gereği yük sunuculara dağıtıldığı için performans anlamında da önemli bir kazanım sağlanmaktadır.

RAID kullanan sistemlerde seçilen RAID modeline (RAID-0, RAID-1, RAID-5, RAID-6, RAID-DP, RAID-10 gibi) bağlı olarak aynı anda arızalanan disk sayısı sınırlıdır. Örneğin RAID-5 ve RAID-DP yapıda en fazla iki disk arızası tolere edilebilmektedir. Aynı gruptaki üçüncü diskin kaybedilmesi veri kaybı anlamına gelmektedir. Dağıtık depolamalarda ise diskler farklı sunucularda dağıtık şekilde tutulduğu için risk dağıtılmakta ve eş zamanlı kaybedilecek bir çok diskte bile veri kaybı ihtimali önemli oranda düşmektedir. Örneğin bir Ceph kümesi üzerinde bir sunucuyu ve buna bağlı tüm diskleri kaybetme durumunda bile veriye erişim diğer sunucular üzerinden devam etmektedir. Replica sayısının 3 olduğu durumda iki sunucuyu ve bağlı tüm diskleri aynı anda kaybetmek bile veri kaybı yaşanmasına neden olmaz. Hatta ve hatta özel olarak Ceph, kullandığı CRUSH MAP mekanizması sayesinde hata toleransını sadece sunucu seviyesinde değil “failure domain” ismi verilen özelliği sayesinde şasi, kabin, koridor, sistem odası veya veri merkezi seviyesinde de yapabilmektedir. Biraz açmak gerekirse, verinin kopyaları farklı sunucularda tutulabildiği gibi istenirse farklı şasilerde, kabinlerde, koridorlarda, sistem odalarında veya veri merkezlerinde de tutulabilir. Yani örneğin farklı sistem odalarındaki sunucuların bulunduğu bir Ceph kümesinde sistem odası seviyesinde veri yedekliliği kullanıldığında bir sistem odasındaki tüm sunucular ve bunlara bağlı diskler kaybedilse bile veriye erişim devam etmekte, herhangi bir veri kaybı yaşanmamaktadır. Üstelik “failure domain” tanımı her Ceph kümesine göre istenilen derinlikte kişiye özel tanımlar eklenerek özelleştirilebilmektedir. Buna ilaveten Ceph’in “self healing” özelliği sayesinde kaybedilen disklerdeki veriler küme içerisinde belli bir süre erişilememesi halinde herhangi bir müdahale gerekmeden yeniden oluşturulabilmektedir.

RAID kullanılan sistemlerde belirtilen tüm bu kısıtlamaları ortadan kaldırmak ve maliyet etkin bir çözüm sunmak üzere Ceph kendi mimarisinde replikasyon mantığı ile veriyi dağıtık yapıda tutmaktadır. Başka bir deyişle verinin kopyaları ortamda birbirinden bağımsız olarak çalışan sunucularda saklanmaktadır. Dolayısıyla herhangi bir sunucunun tamamen işlevsiz hale gelmesi halinde bile diğer kopyalar üzerinden veriye erişim devam etmektedir. Bu mimari aynı zamanda veriye erişim hızını da arttırmaktadır. Depolama ortamındaki farklı kopyalar üzerinden farklı kısımlar okunarak birleştirilmek suretiyle veri okuma hızı da artmaktadır. Diskler tamamen heterojen yapıda, birbirinden farklı özellikte, boyutta olabilir. Disklere yazma oranları ağırlıklar koymak suretiyle Ceph tarafından kolayca yönetilebilir. İlaveten diskleri Ceph’e tanıtmak için sunuculara RAID kart olamadan doğrudan (HBA vasıtasıyla) bağlamak yeterlidir. Bu da maliyeti önemli ölçüde azaltmaktadır.

İşte bahsedilen tüm bu kısıtlar ve yetersizlikler nedeniyle artık RAID devri kapanmakta, son dönemdeki depolama ihtiyaçlarına daha uygun çözümler sunan dağıtık depolama teknolojilerinin devri başlamaktadır. Dağıtık depolama çözümleri içerisinde de Ceph benzersiz yetenekleri ve sağladığı bütünleşik çözüm ile diğerlerinden bir adım öne çıkmaktadır. Neden Ceph Tercih Edilmeli? yazısında detaylıca bahsedilen bir çok unsur diğer alternatiflere nazaran Ceph’i  seçme konusunda açıkça yol göstermektedir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir