Trung tâm phân phối của Amazon tại Las Vegas, bang Nevada, Mỹ. Ảnh: AFP/TTXVN
Theo tờ The Guardian ngày 24/10, sự cố gián đoạn kéo dài nhiều giờ của Amazon Web Services (AWS) bắt nguồn từ một lỗi trong phần mềm tự động hóa quản lý hệ thống DNS (hệ thống phân giải tên miền). Lỗi này gây ra chuỗi phản ứng dây chuyền, khiến hàng loạt máy chủ và dịch vụ trực tuyến ngừng kết nối, ảnh hưởng đến hàng nghìn nền tảng và ứng dụng toàn cầu.
AWS cho biết cơ sở dữ liệu DynamoDB - nơi khách hàng lưu trữ dữ liệu - bị ảnh hưởng nghiêm trọng do “một lỗi tiềm ẩn” trong hệ thống tự động quản lý DNS. Cụ thể, một bản ghi DNS trống tại trung tâm dữ liệu khu vực Virginia (US-East-1) không được sửa chữa tự động như dự kiến, buộc kỹ sư phải can thiệp thủ công để khôi phục hoạt động.
“Lỗi này trong hệ thống DNS tự động đã gây ra gián đoạn dây chuyền cho nhiều dịch vụ khác của AWS”, báo cáo nêu rõ. Amazon đã vô hiệu hóa toàn cầu trình lập kế hoạch và thực thi DNS tự động, đồng thời triển khai các biện pháp bổ sung nhằm ngăn tái diễn sự cố.
Theo Downdetector, có hơn 8,1 triệu lượt báo cáo lỗi từ người dùng trên toàn cầu, với khoảng 2.000 nền tảng và công ty bị ảnh hưởng, bao gồm Signal, Snapchat, Roblox, Duolingo, nhiều ngân hàng trực tuyến và Ring - nhà sản xuất chuông cửa thông minh thuộc Amazon.
Mặc dù các dịch vụ được khôi phục trong vài giờ, tác động của sự cố lan rộng toàn cầu. Khách hàng của Eight Sleep - công ty sản xuất giường thông minh - không thể điều chỉnh nhiệt độ hoặc độ nghiêng giường thông qua ứng dụng. Giám đốc điều hành Matteo Franceschetti đã xin lỗi người dùng và triển khai bản cập nhật mới, cho phép điều khiển giường qua Bluetooth trong trường hợp mất kết nối mạng.
Chuyên gia Suelette Dreyfus, giảng viên khoa Hệ thống máy tính và thông tin tại Đại học Melbourne (Australia), nhận định sự cố này phản ánh mức độ phụ thuộc quá lớn của thế giới vào một số trung tâm dữ liệu tập trung. “Điểm yếu không chỉ nằm ở AWS - dù họ chiếm khoảng 30% thị phần điện toán đám mây - mà còn ở toàn bộ hạ tầng đám mây toàn cầu, vốn chủ yếu do ba tập đoàn lớn kiểm soát”, bà nói.
Theo bà Dreyfus, Internet vốn được thiết kế để có tính linh hoạt cao, cho phép định tuyến lưu lượng qua nhiều kênh khi gặp sự cố hoặc tấn công mạng. Tuy nhiên, sự tập trung vào một số nhà cung cấp lớn đã làm suy giảm khả năng phục hồi của mạng toàn cầu. “Chúng ta đang dần đánh mất sự bền vững của Internet vì quá phụ thuộc vào các tập đoàn công nghệ nắm giữ hạ tầng cốt lõi”, bà cảnh báo.
Sự cố AWS lần này được giới chuyên gia coi là lời nhắc nhở về tính mong manh của hạ tầng số toàn cầu, trong bối cảnh phần lớn hoạt động kinh tế, xã hội và an ninh mạng hiện nay đều phụ thuộc vào các dịch vụ đám mây quy mô lớn như Amazon, Google và Microsoft.