Đừng để việc lưu trữ trở thành điểm nghẽn chính trong quá trình đào tạo người mẫu

Người ta nói rằng các công ty công nghệ đang tranh giành GPU hoặc đang trên đường mua lại chúng. Hồi tháng 4, CEO Tesla Elon Musk đã mua 10.000 GPU và tuyên bố công ty sẽ tiếp tục mua số lượng lớn GPU từ NVIDIA. Về phía doanh nghiệp, nhân viên CNTT cũng đang nỗ lực hết sức để đảm bảo rằng GPU được sử dụng liên tục để tối đa hóa lợi tức đầu tư. Tuy nhiên, một số công ty có thể nhận thấy rằng mặc dù số lượng GPU tăng lên nhưng tình trạng GPU không hoạt động lại trở nên nghiêm trọng hơn.

Nếu lịch sử đã dạy chúng ta điều gì về điện toán hiệu năng cao (HPC), thì đó là không nên hy sinh việc lưu trữ và kết nối mạng để tập trung quá nhiều vào tính toán. Nếu bộ lưu trữ không thể truyền dữ liệu đến các đơn vị tính toán một cách hiệu quả thì ngay cả khi bạn có nhiều GPU nhất trên thế giới, bạn cũng sẽ không đạt được hiệu quả tối ưu.

Theo Mike Matchett, nhà phân tích tại Small World Big Data, các mô hình nhỏ hơn có thể được thực thi trong bộ nhớ (RAM), cho phép tập trung nhiều hơn vào tính toán. Tuy nhiên, các mô hình lớn hơn như ChatGPT với hàng tỷ nút không thể được lưu trữ trong bộ nhớ do chi phí cao.

Matchett nói: “Bạn không thể chứa hàng tỷ nút trong bộ nhớ, vì vậy việc lưu trữ càng trở nên quan trọng hơn”. Thật không may, việc lưu trữ dữ liệu thường bị bỏ qua trong quá trình lập kế hoạch.

Nói chung, bất kể trường hợp sử dụng nào, có bốn điểm chung trong quá trình đào tạo mô hình:

1. Đào tạo người mẫu
2. Ứng dụng suy luận
3. Lưu trữ dữ liệu
4. Tính toán tăng tốc

Khi tạo và triển khai mô hình, hầu hết các yêu cầu đều ưu tiên môi trường thử nghiệm hoặc chứng minh khái niệm nhanh (POC) để bắt đầu đào tạo mô hình, trong đó nhu cầu lưu trữ dữ liệu không được xem xét hàng đầu.

Tuy nhiên, thách thức nằm ở chỗ việc đào tạo hoặc triển khai suy luận có thể kéo dài hàng tháng, thậm chí hàng năm. Nhiều công ty nhanh chóng mở rộng quy mô mô hình của họ trong thời gian này và cơ sở hạ tầng phải mở rộng để đáp ứng các mô hình và bộ dữ liệu đang phát triển.

Nghiên cứu của Google về hàng triệu khối lượng công việc đào tạo ML cho thấy trung bình 30% thời gian đào tạo được dành cho đường dẫn dữ liệu đầu vào. Mặc dù nghiên cứu trước đây tập trung vào việc tối ưu hóa GPU để tăng tốc độ đào tạo nhưng vẫn còn nhiều thách thức trong việc tối ưu hóa các phần khác nhau của đường truyền dữ liệu. Khi bạn có sức mạnh tính toán đáng kể, nút thắt thực sự sẽ nằm ở việc bạn có thể cung cấp dữ liệu vào các phép tính nhanh như thế nào để nhận được kết quả.

Cụ thể, những thách thức trong việc lưu trữ và quản lý dữ liệu đòi hỏi phải lập kế hoạch tăng trưởng dữ liệu, cho phép bạn liên tục trích xuất giá trị của dữ liệu khi bạn tiến bộ, đặc biệt khi bạn tham gia vào các trường hợp sử dụng nâng cao hơn như học sâu và mạng thần kinh, vốn đặt ra yêu cầu cao hơn về lưu trữ về mặt dung lượng, hiệu suất và khả năng mở rộng.

Đặc biệt:

Khả năng mở rộng
Học máy yêu cầu xử lý lượng dữ liệu khổng lồ và khi khối lượng dữ liệu tăng lên, độ chính xác của mô hình cũng được cải thiện. Điều này có nghĩa là doanh nghiệp phải thu thập và lưu trữ nhiều dữ liệu hơn mỗi ngày. Khi bộ nhớ không thể mở rộng quy mô, khối lượng công việc sử dụng nhiều dữ liệu sẽ tạo ra tắc nghẽn, hạn chế hiệu suất và dẫn đến thời gian nhàn rỗi GPU tốn kém.

Tính linh hoạt
Hỗ trợ linh hoạt cho nhiều giao thức (bao gồm NFS, SMB, HTTP, FTP, HDFS và S3) là cần thiết để đáp ứng nhu cầu của các hệ thống khác nhau, thay vì bị giới hạn trong một loại môi trường duy nhất.

Độ trễ
Độ trễ I/O rất quan trọng đối với việc xây dựng và sử dụng các mô hình vì dữ liệu được đọc đi đọc lại nhiều lần. Giảm độ trễ I/O có thể rút ngắn thời gian đào tạo của mô hình theo ngày hoặc tháng. Phát triển mô hình nhanh hơn trực tiếp mang lại lợi ích kinh doanh lớn hơn.

Thông lượng
Thông lượng của hệ thống lưu trữ là rất quan trọng để đào tạo mô hình hiệu quả. Quá trình đào tạo liên quan đến lượng lớn dữ liệu, thường tính bằng terabyte mỗi giờ.

Truy cập song song
Để đạt được thông lượng cao, các mô hình đào tạo chia các hoạt động thành nhiều nhiệm vụ song song. Điều này thường có nghĩa là các thuật toán học máy truy cập đồng thời vào cùng một tệp từ nhiều quy trình (có thể trên nhiều máy chủ vật lý). Hệ thống lưu trữ phải xử lý các nhu cầu đồng thời mà không ảnh hưởng đến hiệu suất.

Với khả năng vượt trội về độ trễ thấp, thông lượng cao và I/O song song quy mô lớn, Dell PowerScale là giải pháp lưu trữ bổ sung lý tưởng cho điện toán tăng tốc GPU. PowerScale giảm đáng kể thời gian cần thiết cho các mô hình phân tích đào tạo và kiểm tra bộ dữ liệu nhiều terabyte. Trong bộ lưu trữ toàn flash PowerScale, băng thông tăng 18 lần, loại bỏ tắc nghẽn I/O và có thể được thêm vào các cụm Isilon hiện có để tăng tốc và mở khóa giá trị của lượng lớn dữ liệu phi cấu trúc.

Hơn nữa, khả năng truy cập đa giao thức của PowerScale mang đến sự linh hoạt không giới hạn khi chạy khối lượng công việc, cho phép dữ liệu được lưu trữ bằng một giao thức và được truy cập bằng giao thức khác. Cụ thể, các tính năng mạnh mẽ, tính linh hoạt, khả năng mở rộng và chức năng cấp doanh nghiệp của nền tảng PowerScale giúp giải quyết các thách thức sau:

- Tăng tốc độ đổi mới lên tới 2,7 lần, giảm chu kỳ đào tạo mô hình.

- Loại bỏ tắc nghẽn I/O và cung cấp đào tạo và xác thực mô hình nhanh hơn, cải thiện độ chính xác của mô hình, nâng cao năng suất khoa học dữ liệu và tối đa hóa lợi tức đầu tư vào điện toán bằng cách tận dụng các tính năng cấp doanh nghiệp, hiệu suất cao, tính đồng thời và khả năng mở rộng. Nâng cao độ chính xác của mô hình với các bộ dữ liệu sâu hơn, độ phân giải cao hơn bằng cách tận dụng dung lượng lưu trữ hiệu quả lên tới 119 PB trong một cụm.

- Đạt được mục tiêu triển khai trên quy mô lớn bằng cách bắt đầu tính toán và lưu trữ ở quy mô nhỏ và độc lập, cung cấp các tùy chọn bảo mật và bảo vệ dữ liệu mạnh mẽ.

- Cải thiện năng suất khoa học dữ liệu bằng các giải pháp phân tích tại chỗ và được xác thực trước để triển khai nhanh hơn, ít rủi ro hơn.

- Tận dụng các thiết kế đã được chứng minh dựa trên các công nghệ tốt nhất, bao gồm khả năng tăng tốc GPU NVIDIA và kiến ​​trúc tham chiếu với hệ thống NVIDIA DGX. Hiệu suất cao và tính đồng thời của PowerScale đáp ứng các yêu cầu về hiệu suất lưu trữ ở mọi giai đoạn của máy học, từ thu thập và chuẩn bị dữ liệu cho đến đào tạo và suy luận mô hình. Cùng với hệ điều hành OneFS, tất cả các nút có thể hoạt động liền mạch trong cùng một cụm do OneFS điều khiển, với các tính năng cấp doanh nghiệp như quản lý hiệu suất, quản lý dữ liệu, bảo mật và bảo vệ dữ liệu, cho phép hoàn thành đào tạo và xác thực mô hình nhanh hơn cho doanh nghiệp.


Thời gian đăng: Jul-03-2023