Cloudflare olayının lanet olası reteksi: peki gerçekte ne oldu? - Dünyadan Güncel Teknoloji Haberleri

Cloudflare olayının lanet olası reteksi: peki gerçekte ne oldu? - Dünyadan Güncel Teknoloji Haberleri
Ve toprak arızası dediğimde, sigortayı tamir etmek için sizi bodruma inmeye zorlayan türden bir kısa devreden bahsetmiyorum Bu olaydan ve bunun müşterilerimize ve ekibimize yaşattığı zorluktan dolayı üzgünüm ve utanıyorum Dağıtılmış sistemler ürünlerini kullanmamız gerekiyor 000 web sitesinden 3 280’i İçerik Dağıtım Ağı (CDN) hizmetlerine güveniyor ” Merkezi tesislerimizde kesinti olsa bile neredeyse normal şekilde çalışmaya devam edebilmeleri için tüm hizmetlerimizi tüm müşterilerimizin kullanımına sunuyoruz Örneğin devre kesicilerin neredeyse tamamı patlamıştı ve Flexentail bunları değiştirmek için yenilerini satın almak zorunda kaldı Yani tasarım gereği tesislerden biri arızalanırsa diğerleri yükü devralmalı ve çalışmaya devam etmelidir 470 voltluk bir akım

Daha sonra veri merkezine güç sağlayan PGE transformatöründe toprak arızası oluştu

Prince sorunu açıklamak için elinden geleni yaptı:

Öncelikle bunun asla olmaması gerekirdi Cloudflare’in kontrol düzlemi ve analiz sistemleri, Hillsboro, Oregon çevresindeki üç veri merkezinde bulunan sunucularda çalışır İyi haber şu ki CDN başarısız olmadı Daha da kötüsü Flexential, Cloudflare’e bir şekilde jeneratör gücüne geçtiğini söylemedi İleriye dönük olarak Bay Prince şu sonuca vardı: “Veri merkezi sağlayıcımızda gördüğümüz ardışık kesintilere bile dayanabilecek doğru sistem ve prosedürlere sahibiz, ancak bu sistemleri ve prosedürleri uygularken daha titiz olmamız gerekiyor ve bunları bilinmeyen bağımlılıklar açısından test etmek Ancak veri merkezi, tesise güç sağlayan, belirli düzeyde bağımsızlığa sahip birden fazla güç kaynağına sahiptir Bu olay boyunca küresel ağımız beklendiği gibi çalışmaya devam etti ancak çekirdeğin mevcut olmaması durumunda çok fazla sistem başarısız oluyor Bu yaklaşım, tüm sunucuların yeniden inşa edilmesini ve yeniden başlatılmasını gerektiriyordu; bu da saatler sürdü Ve son iki günün zorluğu bizi daha iyi hale getirecek Dolayısıyla HA küme hizmetleri Kafka ve Clickhouse’u aradığında yanıt alamadılar

Hata!

Tek personel olarak bir hafta boyunca bir teknisyen iş başında

Belki de kimse başa çıkamadı Milyonlarca avroluk soru şu: “Ne oldu?”

Şirketin üç ana veri merkezinden birinde elektrik kazası meydana geldi

Cloudflare CEO’su Matthew Prince’e göre cevap, şirketin Oregon’daki (Amerika Birleşik Devletleri) üç ana veri merkezinden birinde meydana gelen bir elektrik kazasıydı Üstelik hizmetlerinin büyük bir kısmı temel tesislerin mevcudiyetine bağlıdır ”

Birkaç saat sonra nihayet her şey normale döndü Ancak sitede gece nöbetçisi personeli “güvenlik ve yalnızca bir haftadır işte olan refakatsiz bir teknisyenden oluşuyordu

Bu arada Cloudflare, bazı kritik sistem ve hizmetlerin henüz yüksek kullanılabilirlik kurulumuna entegre edilmediğini zor yoldan keşfetti com”



genel-15

Teorik olarak, invertörlerin sunucuları 10 dakika boyunca çalışır durumda tutması gerekiyordu, bu da jeneratörlerin tekrar çalışır duruma gelmesi için yeterli olurdu

Bu tür bir şey büyük internet hizmet şirketlerinin başına gelmez veya en azından gelmemesi gerekir

Kulağa harika geliyor, değil mi? Ama olan bu değil


7,5 milyondan fazla web sitesi Cloudflare kullanıyorve dünyanın en popüler 10

Bağlantıyı ve tüm jeneratörleri kesen 12 Ama hepsi birbirinden bağımsız

Merkezi sistemine bağlı kalan dağıtık sistemlerin kralı

Birçok şirket bunu yapıyor ancak Prens itiraf ediyor Bu durum “Cloudflare’in lehine çalışmıyor


2 Kasım 2023’te müşteri arayüzleri Bulut parlamasıWeb siteleri ve API’lerin yanı sıra günlükler ve analiz araçları da dahil olmak üzere , düzgün çalışmayı durdurdu Büyük veri merkezi sağlayıcılarımızdan biri felaketle sonuçlanabilecek bir arıza yaşadığında bile bu tür bir kesintiyi önleyecek yüksek kullanılabilirliğe sahip sistemlerimiz olduğuna inanıyorduk Her birinin birden fazla yedekli ve bağımsız güç kaynağı ve İnternet bağlantısı vardır

Birkaç güç dalgalanması olacağını tahmin eden Cloudflare ayrıca “tek güvenli kurtarma işleminin tüm kurulumun tamamen yeniden başlatılması olduğuna” karar verdi

Yüksek kullanılabilirliğin avantajları ve dezavantajları

Şimdiye kadar, çok iyi Ve bu kolay değildi

Talihsizlik! Flexential, güç kaynağını desteklemek için jeneratörlerini açtı

Üç veri merkezi, doğal bir felaketin hepsinin birden çökmesine neden olmayacağı kadar birbirinden yeterince uzakta

Saha dışı enerji ve jeneratörleri aynı anda kullanmıyoruz

İlk olarak Flexential’ın tesisindeki elektrik kesintisi beklenmedik bir hizmet kesintisine neden oldu

Veri merkezinin en iyi uygulamalarına aşina olmayanlar için bu yaklaşımdan kaçınılmalıdır

O haklı

Ve üç veri merkezi “çoğunlukla” yedekli olsa da tamamen yedekli değildi Ancak yüksek kullanılabilirlik kümesinde olması gereken hizmetlerin bir alt kümesi, yalnızca yeni ölen veri merkezinde çalışan hizmetlere bağlıydı Bu olayın asla yaşanmaması gerekirdi Ancak Flexential, kesilen elektriği tamamlamak için jeneratörlerini çalıştırdı Böylece kesinti devam etti Bölgenin diğer iki veri merkezi yüksek kullanılabilirlik kümesini destekledi ve kritik hizmetleri çevrimiçi tuttu Otuz altı saat sonra Cloudflare hizmetleri nihayet normale döndü Bu açıkça gerçek bir sorundu Bu cümleyi okumanızdan daha kısa bir sürede bağlantıyı ve tüm jeneratörleri devre dışı bırakan 12 Bunun yerine, invertörler yaklaşık dört dakika sonra ölmeye başladı ve jeneratörler zaten asla zamanında çalıştırılamayacaktı 470 volttan bahsediyorum Ne için ? Çünkü Cloudflare personeli neyin yanlış olduğunu anlamak için günlüklere bakamadı ” Kısacası durum umutsuzdu

Özellikle, günlükleri işleyen ve Cloudflare’in analitiğini güçlendiren iki kritik hizmet: Kafka’nın Ve ClickHouse – yalnızca çevrimdışı veri merkezinde mevcuttu

4 Kasım’a kadar süren olay nihayet çözümlendi Portland General Electric (PGE), binanın bağımsız güç kaynaklarından birini kesmek zorunda kaldı Esnekve bu da birbirini takip eden sorunların ortaya çıkmasına neden oldu Bu konu, yıl sonuna kadar benim ve ekibimizin büyük bir kısmının tüm dikkatini koruyacak Dağıtılmış sistemlerde iyiyiz Her ne kadar pek çok sistem beklendiği gibi çevrimiçi kalsa da, bazı kritik sistemlerde, onları kullanılamaz hale getiren belirgin olmayan bağımlılıklar vardı Aynı zamanda aktif, yedekli veri kümelerinden yararlanabilecek kadar da yakındırlar Kötü haber şu ki Cloudflare Dashboard ve uygulama programlama arayüzleri (API’ler) neredeyse iki gün boyunca ulaşılamadı Ayrıca Cloudflare’in tarama sürelerinin kabul edilebilir olması nedeniyle günlük sistemlerini yüksek kullanılabilirliğe sahip kümeye entegre etmeme kararının bir hata olduğu ortaya çıktı ”


Kaynak : “ZDNet

Cloudflare itiraf ediyor “çok gevşekti ve yeni ürünlerin ve bunlarla ilişkili veritabanlarının yüksek kullanılabilirlik kümesine entegre edilmesini gerektirmesi gerekirdi”