5 cách "ép cân" dữ liệu

dongvt · 3/12/10

Không chỉ giúp tiết kiệm chi phí, việc giảm dung lượng dữ liệu còn là giải pháp để giảm tải cho hạ tầng mạng và hệ thống sao lưu dữ liệu.
Với nhu cầu lưu trữ ngày càng bùng nổ, hầu hết các nhà cung cấp lưu trữ đều yêu cầu người dùng phải giảm tối đa dung lượng dữ liệu cần lưu trữ. Việc này không những giúp giảm chi phí phần cứng, phần mềm, điện năng tiêu thụ và không gian cho trung tâm dữ liệu mà còn giảm áp lực cho hệ thống mạng và sao lưu dữ liệu.
Nhưng làm thế nào để chọn được kỹ thuật giảm dung lượng dữ liệu tốt? Trước hết, bạn cần xác định được công ty/doanh nghiệp đang sử dụng dữ liệu như thế nào và các khoản chi phí tiết kiệm được khi sử dụng phương pháp giảm dung lượng?
Chọn được kỹ thuật giảm dung lượng dữ liệu tốt không chỉ tùy thuộc vào đặc thù công việc và loại dữ liệu cần lưu trữ. Chẳng hạn, phương pháp chống trùng lặp thường không mang lại hiệu quả đáng kể cho dữ liệu X-quang, dữ liệu thử nghiệm kỹ thuật, phim và nhạc; tuy nhiên phương pháp này có thể làm giảm đáng kể chi phí sao lưu trên các máy ảo. Sau đây là 5 kỹ thuật giảm dung lượng lưu trữ thường được sử dụng.
1. Chống trùng lặp
Chống trùng lặp là quá trình tìm kiếm và loại bỏ dữ liệu trùng nhau được lưu trữ tại nhiều không gian lưu trữ khác nhau (như đĩa cứng, bộ nhớ…), có thể giảm đến 90% dung lượng cần lưu trữ. Chẳng hạn, thông qua kỹ thuật chống trùng lặp, bạn có thể đảm bảo rằng mình chỉ lưu 1 bản sao tập tin đính kèm được gửi tới hàng trăm nhân viên. Chống trùng lặp đã trở thành một trong những yêu cầu thực tế trong việc sao lưu, lưu trữ cũng như bất kỳ hình thức lưu trữ thứ cấp nào, nơi tốc độ truy cập không quan trọng bằng yêu cầu giảm tình trạng "giẫm chân" dữ liệu.

Ví dụ, với công cụ Virtual Tape Library của hãng FalconStor, một tổ chức y tế có thể giảm đến 72 lần dung lượng lưu trữ nhờ kỹ thuật chống trùng lặp. Trong khi đó, dịch vụ lưu trữ "mây" của hãng i365 đạt được tỷ lệ từ 30:1 đến 50:1 trong việc giảm dung lượng của một khối dữ liệu hỗn hợp gồm Microsoft Exchange, SharePoint, SQL Server và các tập tin trên máy ảo VMware.
Dữ liệu có thể được loại bỏ ở cấp độ tập tin hay khối (như tập tin nén). Trong hầu hết trường hợp, việc lọc nội dung trùng lặp càng chặt chẽ sẽ càng giúp tiết kiệm chi phí và không gian lưu trữ. Tuy nhiên, khâu lọc các nội dung trùng nhau có thể cần nhiều thời gian và qua đó "kìm hãm" tốc độ truy xuất dữ liệu.
Chống trùng lặp dữ liệu có thể được xử lý trước (preprocessing/inline) hoặc sau khi dữ liệu được lưu vào nơi nhất định (postprocessing). Về cơ bản, xử lý sau là lựa chọn tốt nhất nếu bạn cần tốc độ truy xuất dữ liệu nhanh, tuy nhiên bạn cũng nên xem xét giải pháp xử lý trước nếu có đủ thời gian và cần giảm chi phí lưu trữ. Ngoài ra, kỹ thuật chống trùng lặp theo phương pháp xử lý trước có thể giảm lượng dữ liệu lưu trữ xuống tỷ lệ 20:1, tuy nhiên kỹ thuật này có thể làm ảnh hưởng đến hiệu năng và buộc người dùng phải mua nhiều máy chủ hơn. Cạnh đó, chống trùng lặp theo phương pháp xử lý sau đòi hỏi nhiều không gian lưu trữ hơn để làm bộ đệm, qua đó làm giảm dung lượng lưu trữ cho các nhu cầu sử dụng khác.
(pcworld)

Đăng nhập

5 cách "ép cân" dữ liệu

dongvt Guest

Chia sẻ trang này

Đăng nhập

5 cách "ép cân" dữ liệu

dongvt Guest

Chia sẻ trang này

Tìm kiếm hữu ích