"Steel for the AI Age": DGX Superpod đạt đến tầm cao mới với Nvidia DGX A100

Trong quá trình công nghiệp hoá vật liệu như thép mang tính biểu tượng và được coi là không thể thiếu. Trong thời đại hiện nay, thời đại của cách mạng công nghiệp 4.0, thời đại của AI thì một loại “vật liệu” mới sẽ đóng vai trò là nền tảng của các trung tâm dữ liệu hiện đại, đó là NVIDIA DGX A100.

Ngày nay, rất nhiều thách thức cũng như cơ hội mà các tổ chức phải đối đều bắt nguồn từ dữ liệu (data). NVIDIA DGX A100, hệ thống AI tiên tiến nhất thế giới, cho phép các tổ chức giải quyết các vấn đề nêu trên trong thời gian kỷ lục tuy nhiên vẫn đảm bảo tính linh hoạt và khả năng thích ứng với hạ tầng sẵn có của khách hàng để mang tới sức mạnh tính toán AI thông qua các tác vụ như: phân tích – analytics, đào tạo – training và suy luận – inference (các tác vụ trong các bài toán phân tích dữ liệu và trí tuệ nhân tạo).

Với việc ghép chập các hệ thống DGX để tạo thành hệ thống DGX SuperPOD thế hệ thứ hai (DGX SuperPOD thế hệ thứ nhất được công bố vào 2019) đã mang lại hiệu suất phá kỷ lục về hiệu năng và toàn bộ quá trình triển khai hệ thống với thời gian chỉ ba tuần. Điều này đã phá bỏ quan điểm cho rằng khách hàng sẽ phải mất nhiều tháng để xây dựng một cụm siêu máy tính AI đẳng cấp thế giới (a world-class AI supercomputing cluster).

Được xây dựng với nền tảng là hệ thống NVIDIA DGX A100 và hạ tầng mạng NVIDIA Mellanox, hệ thống SuperPOD đảm bảo rằng việc cung cấp hạ tầng tính toán cho các mô hình phức tạp nhất thế giới về language understanding thường mất tới vài tuần xử lý nay chỉ còn dưới một giờ.

SuperPOD tái định nghĩa hạ tầng siêu tính toán khả mở

Dù với yêu cầu một cụm siêu máy tính để giải quyết các vấn đề lớn, phức tạp với yêu cầu tài nguyên tính toán lớn hay một trung tâm nghiên cứu đổi mới sáng tạo tầm cỡ quốc gia/vùng lãnh thổ mà ở đó cung cấp tài cho tất cả các nhà nghiên cứu (Researcher) và các nhà phát triển (developer), thì hệ thống hạ tầng AI là một yêu cầu tối quan trọng.

Việc thiết kế hạ tầng AI theo cách truyền thống với mấu chốt trong việc xây dựng hạ tầng AI chính là định cỡ hạ tầng dựa trên việc tăng trưởng về nhu cầu sử dụng trong tương lai để đưa ra kiến trúc hạ tầng đáp ứng chúng ngay tại thời lập kế hoạch xây dựng. Cách tiếp cận này là cần thiết để đảm bảo tính khả thi về khả năng mở rộng hệ thống tuy nhiên chi phí đầu tư sẽ rất lớn do hạ tầng đầu tư lớn hơn so với với nhu cầu thực tế tại thời điểm xây dựng ban đầu.

Với các công nghệ từ NVIDIA Mellanox, NVIDIA đã định nghĩa lại về khái niệm trung tâm dữ liệu AI với kiến trúc xử lý song song các vấn đề phức tạp nhất và giải quyết chúng nhanh nhất có thể. Hệ thống DGX A100 đi kèm bộ điều hợp mạng Mellanox ConnectX-6 VPI với 200Gbps HDR InfiniBand – và hỗ trợ lên đến chín bộ điều hợp mạng cho mỗi hệ thống DGX A100. NVIDIA tận dụng lợi thế về công nghệ của các bộ chuyển mạch Mellanox cho phép các hệ thống kết nối với nhau dễ dàng hơn và có thể đạt tới quy mô SuperPOD.

Với DGX SuperPOD và DGX A100, NVIDIA đã thiết kế kiến trúc mạng AI giúp tăng trưởng dễ dàng hơn với mô hình Pay-As-You-Grow, đồng thời giảm thiểu tác động đến các hoạt động của hệ thống trong quá trình mở rộng hệ thống.

Hạ tầng SuperPOD được mô-đun hóa thành với các thành phần là SU (Scalable Unit) cho phép mở rộng tới 20 DGX A100 mỗi SU. Các SU được kết nối với kiến trúc chuyển mạch hai lớp fat-tree (two-tiered fat-tree) với hạ tầng Mellanox HDR InfiniBand cho phép cung cấp băng thông chuyển mạch tối ưu nhất cho hệ thống. Trong trường hợp bổ sung thêm lớp chuyển mạch thứ ba (third switching tier) hệ thống có thể mở rộng quy mô lên hàng nghìn nodes với các kiến trúc tham chiếu như DragonFly+ hoặc Fat-Tree.

Với quy mô mở rộng đã nêu, khách hàng của NVIDIA được đảm bảo sở hữu hạ tầng AI khả mở với khả năng mở rộng tuyến tính không chỉ về số lượng tài nguyên tính toán và còn về cả hiệu năng tính toán chỉ với chi phí đầu tư từng mô-đun SU (20 hệ thống DGX A100 mỗi SU).

Với thiết kế SuperPOD, NVIDIA các kĩ sư của NVIDIA đã công bố hiệu suất tính toán của hệ thống rơi vào khoảng 700 petaflop (mỗi petaflops tương ứng với hàng triệu tỉ phép tính mỗi giây). Với chi tiết hệ thống gồm:

140 hệ thống DGX A100
120 GPU NVIDIA A100
170 Mellanox Quantum 200G InfiniBand Switch
15 km cáp quang
4PB dung lượng lưu trữ hiệu suất cao

Đối với hạ tầng lưu trữ hiệu suất cao này, NVIDIA hợp tác với một trong các đối tác cung cấp lưu trữ trong DGX POD đó là DDN. DDN đã giúp mang lại hiệu suất và quy mô cần thiết cho các dịch vụ cơ sở hạ tầng AI của NVIDIA. Với sự hỗ trợ về công nghệ lưu trữ hiệu năng cao của DDN, SuperPOD đã có thể xử lý đuợc những workload phức tạp nhất hiện một cách tốt nhât.

SuperPOD kiến trúc AI khả mở tốt nhất

Cho tới thời điểm hiện nay, không phải tất cả các dự án AI đều cần tới hạ tầng DGX SuperPOD tuy nhiên mọi tổ chức đều mong muốn phát triển kinh doanh dựa trên sức mạnh của AI và hoàn toàn có thể thực hiện điều đó với sự linh hoạt và khả năng mở rộng của hệ thống DGX A100 và DGX POD.

Với lợi thế mang lại từ DGX A100, DGX POD và SuperPOD, ứng dụng AI vào các tổ chức, doanh nghiệp sẽ giúp cho khách hàng của NVIDIA có thể hướng tới kinh doanh bền vững thông qua việc giữ chân khách hàng, giảm chi phí kinh doanh cũng như tạo khoảng cách với các đối thủ cạnh tranh. Tuy nhiên thách thức lớn đó là AI phát triển quá nhanh với các mô hình đào tạo (training model) cũng như bộ dữ liệu (data set) ngày càng tăng theo cấp số nhân. Việc lựa chọn một kiến trúc khả mở như SuperPOD giúp khách hàng của NVIDIA giải quyết các thách thức AI lớn nhất của họ ở hiện tại và trong tương lai mà không bị gián đoạn trong cả quá trình phát triển của tổ chức, doanh nghiệp.

Về ADG Distribution

ADG hiện là nhà phân phối chính thức của NVIDIA cho hệ thống máy tính hiệu suất cao, các thiết bị AI, và máy tính tăng tốc NVIDIA dựa trên GPU và hệ thống cụm siêu máy tính với khả năng lưu trữ song song DDN và mạng tốc độ cao từ Mellanox. Xem thêm thông tin tại http://adg.vn/

Liên hệ để được tư vấn: Mr Nguyễn Tiến Dũng
E-mail: tiendung.nguyen@adg.vn