Đừng để lưu trữ trở thành nút cổ chai chính trong đào tạo người mẫu

Người ta nói rằng các công ty công nghệ đang tranh giành GPU hoặc đang trên đường giành lấy chúng.Vào tháng 4, Giám đốc điều hành Tesla, Elon Musk, đã mua 10.000 GPU và tuyên bố rằng công ty sẽ tiếp tục mua một lượng lớn GPU từ NVIDIA.Về phía doanh nghiệp, nhân viên CNTT cũng đang nỗ lực hết sức để đảm bảo rằng GPU được sử dụng liên tục để tối đa hóa lợi tức đầu tư.Tuy nhiên, một số công ty có thể nhận thấy rằng trong khi số lượng GPU tăng lên, tình trạng không hoạt động của GPU trở nên nghiêm trọng hơn.

Nếu lịch sử đã dạy chúng ta bất cứ điều gì về điện toán hiệu năng cao (HPC), thì đó là việc lưu trữ và kết nối mạng không nên hy sinh để đánh đổi bằng việc tập trung quá nhiều vào tính toán.Nếu bộ lưu trữ không thể truyền dữ liệu một cách hiệu quả đến các đơn vị tính toán, thì ngay cả khi bạn có nhiều GPU nhất trên thế giới, bạn cũng sẽ không đạt được hiệu quả tối ưu.

Theo Mike Matchett, nhà phân tích tại Small World Big Data, các mô hình nhỏ hơn có thể được thực thi trong bộ nhớ (RAM), cho phép tập trung hơn vào tính toán.Tuy nhiên, các mô hình lớn hơn như ChatGPT với hàng tỷ nút không thể được lưu trữ trong bộ nhớ do chi phí cao.

Matchett nói: “Bạn không thể chứa hàng tỷ nút trong bộ nhớ, vì vậy việc lưu trữ càng trở nên quan trọng hơn.Thật không may, việc lưu trữ dữ liệu thường bị bỏ qua trong quá trình lập kế hoạch.

Nhìn chung, bất kể trường hợp sử dụng nào, có 4 điểm chung trong quá trình đào tạo mô hình:

1. Đào tạo người mẫu
2. Ứng dụng suy luận
3. Lưu trữ dữ liệu
4. Điện toán tăng tốc

Khi tạo và triển khai các mô hình, hầu hết các yêu cầu đều ưu tiên môi trường thử nghiệm hoặc chứng minh khái niệm (POC) nhanh để bắt đầu đào tạo mô hình, với nhu cầu lưu trữ dữ liệu không được xem xét hàng đầu.

Tuy nhiên, thách thức nằm ở chỗ việc triển khai đào tạo hoặc suy luận có thể kéo dài hàng tháng, thậm chí hàng năm.Nhiều công ty nhanh chóng mở rộng quy mô mô hình của họ trong thời gian này và cơ sở hạ tầng phải mở rộng để phù hợp với các mô hình và bộ dữ liệu đang phát triển.

Nghiên cứu từ Google về hàng triệu khối lượng công việc đào tạo ML cho thấy rằng trung bình 30% thời gian đào tạo được dành cho đường dẫn dữ liệu đầu vào.Mặc dù nghiên cứu trước đây tập trung vào việc tối ưu hóa GPU để tăng tốc độ đào tạo, nhưng vẫn còn nhiều thách thức trong việc tối ưu hóa các phần khác nhau của đường dẫn dữ liệu.Khi bạn có sức mạnh tính toán đáng kể, nút cổ chai thực sự trở thành tốc độ bạn có thể đưa dữ liệu vào các phép tính để thu được kết quả.

Cụ thể, những thách thức trong quản lý và lưu trữ dữ liệu đòi hỏi phải lập kế hoạch tăng trưởng dữ liệu, cho phép bạn liên tục trích xuất giá trị của dữ liệu khi bạn tiến bộ, đặc biệt khi bạn tham gia vào các trường hợp sử dụng nâng cao hơn như học sâu và mạng lưới thần kinh, vốn đặt ra yêu cầu cao hơn về lưu trữ về dung lượng, hiệu suất và khả năng mở rộng.

Đặc biệt:

khả năng mở rộng
Học máy yêu cầu xử lý lượng dữ liệu khổng lồ và khi khối lượng dữ liệu tăng lên, độ chính xác của các mô hình cũng được cải thiện.Điều này có nghĩa là doanh nghiệp phải thu thập và lưu trữ nhiều dữ liệu hơn mỗi ngày.Khi dung lượng lưu trữ không thể thay đổi quy mô, khối lượng công việc sử dụng nhiều dữ liệu sẽ tạo ra tắc nghẽn, hạn chế hiệu suất và dẫn đến thời gian nhàn rỗi tốn kém của GPU.

Uyển chuyển
Hỗ trợ linh hoạt cho nhiều giao thức (bao gồm NFS, SMB, HTTP, FTP, HDFS và S3) là cần thiết để đáp ứng nhu cầu của các hệ thống khác nhau, thay vì bị giới hạn trong một loại môi trường.

độ trễ
Độ trễ I/O rất quan trọng đối với việc xây dựng và sử dụng các mô hình khi dữ liệu được đọc đi đọc lại nhiều lần.Việc giảm độ trễ I/O có thể rút ngắn thời gian đào tạo mô hình theo ngày hoặc tháng.Phát triển mô hình nhanh hơn trực tiếp chuyển thành lợi thế kinh doanh lớn hơn.

Thông lượng
Thông lượng của hệ thống lưu trữ là rất quan trọng để đào tạo mô hình hiệu quả.Các quy trình đào tạo liên quan đến một lượng lớn dữ liệu, thường tính bằng terabyte mỗi giờ.

Truy cập song song
Để đạt được thông lượng cao, các mô hình đào tạo chia các hoạt động thành nhiều nhiệm vụ song song.Điều này thường có nghĩa là các thuật toán máy học truy cập đồng thời vào cùng một tệp từ nhiều quy trình (có thể là trên nhiều máy chủ vật lý).Hệ thống lưu trữ phải xử lý các nhu cầu đồng thời mà không ảnh hưởng đến hiệu suất.

Với các khả năng vượt trội về độ trễ thấp, thông lượng cao và I/O song song quy mô lớn, Dell PowerScale là giải pháp lưu trữ bổ sung lý tưởng cho điện toán tăng tốc GPU.PowerScale giúp giảm hiệu quả thời gian cần thiết cho các mô hình phân tích đào tạo và kiểm tra bộ dữ liệu nhiều terabyte.Trong bộ lưu trữ all-flash PowerScale, băng thông tăng lên 18 lần, loại bỏ tắc nghẽn I/O và có thể được thêm vào các cụm Isilon hiện có để tăng tốc và giải phóng giá trị của một lượng lớn dữ liệu phi cấu trúc.

Ngoài ra, khả năng truy cập đa giao thức của PowerScale cung cấp tính linh hoạt không giới hạn để chạy khối lượng công việc, cho phép dữ liệu được lưu trữ bằng một giao thức và được truy cập bằng một giao thức khác.Cụ thể, các tính năng mạnh mẽ, tính linh hoạt, khả năng mở rộng và chức năng cấp doanh nghiệp của nền tảng PowerScale giúp giải quyết các thách thức sau:

- Tăng tốc độ đổi mới lên tới 2,7 lần, giảm chu kỳ đào tạo mô hình.

- Loại bỏ các tắc nghẽn I/O và cung cấp khả năng đào tạo và xác thực mô hình nhanh hơn, cải thiện độ chính xác của mô hình, nâng cao năng suất của khoa học dữ liệu và tối đa hóa lợi tức đầu tư vào máy tính bằng cách tận dụng các tính năng cấp doanh nghiệp, hiệu suất cao, đồng thời và khả năng mở rộng.Nâng cao độ chính xác của mô hình với các bộ dữ liệu sâu hơn, độ phân giải cao hơn bằng cách tận dụng tối đa 119 PB dung lượng lưu trữ hiệu quả trong một cụm duy nhất.

- Đạt được khả năng triển khai ở quy mô lớn bằng cách bắt đầu tính toán và lưu trữ ở quy mô nhỏ và độc lập, cung cấp các tùy chọn bảo mật và bảo vệ dữ liệu mạnh mẽ.

- Cải thiện năng suất của khoa học dữ liệu với các giải pháp phân tích tại chỗ và được xác thực trước để triển khai nhanh hơn, ít rủi ro hơn.

- Tận dụng các thiết kế đã được chứng minh dựa trên các công nghệ tốt nhất, bao gồm kiến ​​trúc tham chiếu và tăng tốc GPU NVIDIA với các hệ thống NVIDIA DGX.Hiệu suất cao và đồng thời của PowerScale đáp ứng các yêu cầu về hiệu suất lưu trữ ở mọi giai đoạn của quá trình học máy, từ thu thập và chuẩn bị dữ liệu cho đến đào tạo và suy luận mô hình.Cùng với hệ điều hành OneFS, tất cả các nút có thể hoạt động liền mạch trong cùng một cụm do OneFS điều khiển, với các tính năng cấp doanh nghiệp như quản lý hiệu suất, quản lý dữ liệu, bảo mật và bảo vệ dữ liệu, cho phép hoàn thành đào tạo mô hình và xác thực nhanh hơn cho doanh nghiệp.


Thời gian đăng bài: Jul-03-2023