Gặp gỡ các thành viên của gia đình Evergreen

mccoy · 23/9/09

Để giới thiệu Cypress, AMD đã áp dụng chiến lược thu nhỏ tiết diện đế của GPU

Tiết diện đế Cypress là 334mm2, so với 260mm2 của RV770. Nhưng nó lại đóng gói 2,15 tỉ bóng bán dẫn, so với 956 triệu trên RV770, và công suất tiêu thụ khi chịu tải là 188W so với 160W trên RV770. AMD gọi là 256mm2 là điểm lý tưởng của kích thước đế của GPU, nhưng kích thước của Cypress đã vượt quá điểm lý tưởng đó.

Cypress như là chip cơ bản, có 4 mẫu thiết kế và 3 chip khác nhau sẽ được bắt nguồn từ nó. Ở trên Cypress là Hemlock, đó sẽ là card đồ họa X2 sử dụng một cặp nhân Cypress. Hemlock rất đáng thú vị để xem, không chỉ vì hiệu năng, mà còn do kích thước đế của Hemlock lớn hơn điểm lý tưởng, chip này của AMD sẽ khá nóng. Một cặp nhân 5870 với 376W, vượt hơn giới hạn cung cấp năng lượng 300W của một đầu cấp điện phụ 6-pin + 1 đầu 8-pin. AMD có thể giảm được năng lượng tiêu thụ 1 chút với giải pháp 2 nhân Cypress trên một card duy nhất. Chúng ta sẽ chờ đợi xem, AMD sẽ giải quyết bài toán về năng lượng tiêu thụ của Hemlock như thế nào. Theo đúng lịch trình Hemlock sẽ ra mắt trước khi kết thúc năm.

Một thành viên mới của gia đình Evergreen là Juniper. Juniper sẽ cho phép AMD cạnh tranh trong mức giá dưới 200 $ tức là mức giá của card đồ họa 4850 đã được đưa ra trước đó. Juniper sẽ là phiên bản cắt giảm từ phiên bản của Cypress, và theo chúng tôi biết thì nó sẽ là gồm 14 SIMD. Chúng tôi cho rằng nó cũng sẽ bị cắt đi một số ROPs. Và chúng tôi cũng sẽ không ngạc nhiên khi thấy Juniper bị cắt giảm cả bus RAM (có thể là 192bit?). Juniper dự kiến sẽ được giới thiệu trong khoảng thời gian tháng mười một.

Và cuối cùng dòng cấp thấp nhất trong gia đình Evergreen là Redwood và Cedar, mà sẽ thay thế cho RV710 và RV730. Hai card đồ họa cấp thấp này sẽ được giới thiệu vào Q1 năm 2010.
nguồn: AnandTech: AMD's Radeon HD 5870: Bringing About the Next Generation Of GPUs

mccoy · 24/9/09

Cải tiến từ RV770

Cypress là một sự tiến hóa trực tiếp từ thiết kế RV770, trước khi chúng tôi nói về những gì mới với Cypress, chúng tôi sẽ nhắc sơ lại thiết kế RV770. Vì nó cần thiết để hiểu cách RV770 được xây dựng do đó để hiểu những gì Cypress thay đổi, nếu bạn hoàn toàn không quen thuộc với RV770, xin hãy xem thảo luận mở rộng của chúng tôi RV770 từ năm ngoái. Còn với những bạn đã có 1 chút hiểu biết về RV770, chúng ta hãy cùng bắt đầu.

Trung tâm của RV770 là đơn vị xử lý dòng - Stream Processing Unit (SPU), là một đơn vị logic số học. RV770 có 800 trong số này, và chúng được đóng gói cùng nhau trong nhóm 5 và chúng tôi gọi một bộ xử lý dòng Processor Streaming (SP). Một SP chứa một tập tin đăng ký, một đơn vị dự đoán rẻ nhánh, và 5 SPUs nói trên, cùng với SPU thứ 5 là một đơn vị phức tạp hơn với khả năng và các chức năng siêu việt cơ bản của một ALU. SP là đơn vị nhỏ nhất có thể làm công việc của cá nhân; mỗi SPU trong một SP phải thực thi chỉ lệnh tương tự.

Với mỗi 16 SP, AMD nhóm chúng cùng với các đơn vị kết cấu (texture units), bộ đệm Cache L1, bộ nhớ chia sẻ, và bộ điều khiển logic. Khối kết hợp này được AMD gọi là một SIMD, và RV770 có 10 SIMD. Và 10 SIMD tạo thành lõi tính toán của RV770, và chúng sẽ liên lạc với những đơn vị khác nhau như ROPs, rasterizers, bộ đệm cahce L2, và tesselators để tạo thành một chip hoàn thiện.

Để tận dụng sức mạnh tính toán của phần cứng, những luồng lệnh sẽ được đưa đến các SP. Những luồng này được nhóm vào wavefronts, trong đó có 64 luồng cho mỗi Wavefront. Để tối đa hóa việc sử dụng GPU, cần phải được tổ chức để sử dụng tất cả 5 SPUs trong một SP ở mỗi chu kỳ đồng hồ. Làm điều này đòi hỏi phải tăng cường xử lý song song là nhiệm vụ khó khăn của trình biên dịch của AMD.

Nếu SPUs không sử dụng, sau đó hiệu năng của chip bị giảm sút. Thiết kế này cung cấp cho AMD rất nhiều sức mạnh tính toán lý thuyết, nhưng nó luôn luôn là một thách thức trong việc khai thác đầy đủ sức mạnh của nó.

nguồn: AnandTech: AMD's Radeon HD 5870: Bringing About the Next Generation Of GPUs

mccoy · 25/9/09

Bộ xử lý dòng và đơn vị kết cấu (Texture Units)

Các nguyên tắc chung của bộ phận máy tính đã không thay đổi nhiều trong RV870. Nó vẫn dựa trên bộ xử lý đổ bóng với thiết kế siêu vô hướng (superscalar), mỗi bộ xử lý kết hợp 5 ALU, bốn trong đó là ALU có chung mục đích và cái thứ năm là một ALU đặc biệt có khả năng thực hiện các phép tính phức tạp như SIN, COS, LOG, EXP, ... Ngoài các ALUs, mỗi bộ xử lý đổ bóng cũng chứa một đơn vị kiểm soát rẻ nhánh và một dãy những thanh ghi có chung mục đích.

Khi chúng ta nói về 1600 bộ xử lý dòng trong RV870, thì phải hiểu rằng có thực sự 320 đơn vị tính toán con phức tạp 5-giai đoạn (5-stage). Cung cấp tối ưu hóa, thiết kế này của phần tính toán của GPU giúp đạt được một mức độ cao hơn nhiều về hiệu suất hơn với so với kiến trúc vô hướng của Nvidia. Thiết kế của bộ xử lý đổ bóng với những cải tiến nới trong GPU với khả năng hỗ trợ DirectX 11/DirectCompute 11.

Cấu trúc của SIMD của RV870 rất giống với cấu trúc SIMD của RV770

Tuy nhiên số lượng SIMD của RV870 nhiều gấp đôi

tổng số SIMD của RV770

tổng số SIMD của RV870

Cũng giống như những GPU trước đây, bộ xử lý đổ bóng của RV870 được nhóm thành những lõi SIMD với 16 bộ xử lý trong mỗi lõi, nhưng hiện nay có 20 thay vì 10 lõi như vậy trong GPU.

Mỗi lõi là một nhân luận lý dịch vụ chuyên dụng và có bốn bộ xử lý kết cấu và bộ nhớ đệm L1. Như vậy, tổng số các bộ vi xử lý kết cấu trong RV870 là tăng gấp đôi (từ 40 lên 80 TMUs). Hiệu năng các đơn vị xử lý kết cấu đã tăng gấp đôi. Kiến trúc tổng thể của các bộ vi xử lý kết cấu tương tự như RV770. Mỗi đơn vị xử lý này vẫn bao gồm 16 đơn vị kết cấu FP32, bốn đơn vị địa chỉ và bốn bộ lọc. Tuy nhiên, với việc hỗ trợ DirectX 11 những bộ vi xử lý này hỗ trợ cho kết cấu điểm ảnh có kích thước 16Kx16K pixel, chế độ nén kết cấu HDR mới, ... Ngoài ra còn có một thuật toán mới lọc không đẳng hướng cung cấp khả năng lọc cho các góc độ nghiêng của bề mặt lọc.

ATI tuyên bố một sự gia tăng đáng kể trong băng thông bộ nhớ cache. Đặc biệt, tốc độ lấy dữ liệu từ bộ nhớ đệm L1 bây giờ là cao tới 1 terabyte / giây, trong khi băng thông của liên kết giữa các cache L1 và L2 được tăng lên 435GBps. Các cache L2 đã trở nên lớn hơn từ 64 đến 128KB. Tỷ lệ để tính toán kết cấu-nguồn tài nguyên không thay đổi và vẫn là 4:1.

Theo lời nhà phát triển, sức mạnh tính toán cao nhất của RV870 có thể đạt tới 2,7 teraflop trong chế độ chính xác đơn (FP32) và 544 gigaflops trong chế độ chính xác đôi (FP64) được sử dụng cho việc tính toán nặng nề nhất.
nguồn: DirectX 11 in the Open: ATI Radeon HD 5870 Review (page 3) - X-bit labs

Chính thức khai tử bộ điều khiển bộ nhớ Ring-Bus

Thay vào đó, họ đã cố gắng để đạt được tần số bộ nhớ cao hơn bằng cách giới thiệu RAM với công nghệ tìm lỗi Error Detection Codes (EDC). Kết quả là, bộ nhớ GDDR5 ổn định có tần số lên đến 1250 (5000) MHz. Cách tiếp cận này đã giúp tăng hiệu năng hệ thống bộ nhớ trong khi vẫn giữ các thiết kế đơn giản, PCB, trong đó có một tác động tích cực đến chi phí sản xuất của Radeon HD 5800.

ATI tuyên bố rằng bộ điều khiển bộ nhớ thanh ngang họ sử dụng một lần nữa sẽ làm việc với hiệu quả giống như ring-bus đã được làm việc trong ba thế hệ mới và lần đầu tiên được giới thiệu trong R520/Radeon ATI X1800. Tuy nhiên, bất chấp sự tăng gấp đôi sức mạnh tính toán cùng với tăng gấp đôi của rasterization và tốc độ tính toán kết cấu, băng thông bộ nhớ chỉ có 30% cao hơn. Vì vậy, chúng tôi có một chút lo ngại rằng các bộ xử lý đồ họa sẽ không hiển thị được hiệu năng tối đa của nó.

RBEs, Tessellation và Các tính năng khác

Số lượng của bộ vi xử lý rasterization (AMD / ATI gọi chúng render back-ends) cũng đã được tăng gấp đôi, từ 16 lên 32. Hiệu năng của hệ thống rasterization đã phát triển lên cho phù hợp:

Kiến trúc RBE đã được cải thiện, nhưng chúng tôi không có bất kỳ thông tin đáng tin cậy về điểm này. Chúng tôi chỉ biết rằng hiệu năng của GPU lúc khử răng cưa toàn màn hình đã được tăng lên và nó làm việc hiệu quả hơn với bộ đệm Z-buffer/stencil. RBE của RV870 hỗ trợ cả chế độ khử răng cưa cổ điển và chế độ khử răng cưa CFAA lập trình trong đó với chế độ Edge là thú vị nhất. Nó cung cấp một chất lượng lý tưởng cho khử răng cưa ở chế độ khử răng cưa tiêu biểu như CFAA Wide/Narrow Tent.

Trước khi đến với thế hệ thứ tám của GPU ATI Radeon, các đơn vị phần cứng tessellation có lẽ đặt nghi vấn nhiều nhất trong toàn bộ dòng ATI Radeon HD. Không phụ thuộc vào sự hỗ trợ cho cả đổ bóng đỉnh và hình học, nó không bao giờ được phổ biến giữa các nhà phát triển game. RV870 đã có khả năng tessellation rộng hơn trong khuôn khổ DirectX 11. Hai kiểu đổ bóng mới được hỗ trợ: hull và domain shaders. Tessellation chính nó có thể được thực hiện theo những cách khác nhau bao gồm các bản vá lỗi N, bản vá lỗi Bezier, displacement maps ....

Có một số tính năng thú vị khác DirectX 11, như đa luồng thật sự, cải thiện chất lượng của các đối tượng chồng chéo trong suốt bằng cách sử dụng DirectCompute 11, và cải thiện hiệu ứng độ sâu... Ngoài ra, card đồ họa Nvidia hiện nay không có công nghệ Ambient Occlusion. Các thế hệ mới Radeon HD hỗ trợ Ambient Occlusion High Definition với chất lượng đổ bóng cải thiện.

Trái ngược với DirectX 10.1, DirectX 11 sẽ được chào đón nồng nhiệt từ các nhà phát triển game. Một vài dự án sẽ hỗ trợ cho API mới này trong Quý 4 năm nay, với nhiều dự án như vậy đến năm 2010.
nguồn: DirectX 11 in the Open: ATI Radeon HD 5870 Review (page 4) - X-bit labs

tóm tắt lại dòng HD5800 chính là là nhồi gấp đôi các đơn vị xử lý so với dòng HD4800 cộng thêm khả năng hỗ trợ DX11 trực tiếp từ phần cứng, Tóm tắt các tính năng mới của DX11 như sau :

* Multi-threaded rendering (dựng hình đa luồng): cho phép sử dụng bộ xử lý đa lõi hiệu quả hơn cho hình ảnh 3D.
* Hỗ trợ GPGPU thống nhất: các tiêu chuẩn lập trình GPU thống nhất - DirectCompute và OpenGL - khuyến khích rất nhiều các nhà phát triển để sử dụng chip đồ hoạ cho vật lý, trí thông minh nhân tạo hoặc bất kỳ tính toán khác. Chúng tôi thấy rất nhiều ứng dụng phần mềm ngày hôm nay làm việc độc quyền với GeForce / CUDA.
* Hỗ trợ nâng cao thuật toán khử răng cưa toàn màn hình cung cấp một hiệu năng được nâng cao.
* Một số cải tiến khác làm tăng hiệu quả hoạt động nói chung của hệ thống đồ họa.

mccoy · 26/9/09

Công nghệ Eyefinity

Vào thời điểm năm 2006 - 2007 ATI đã làm việc trên các thông số kỹ thuật tổng thể cho những gì cuối cùng sẽ chuyển thành GPU RV870. Những GPU được thiết kế bằng cách kết hợp các quan điểm của các kỹ sư của ATI với nhu cầu của những nhà phát triển, người dùng cuối cùng và OEM. Trong trường hợp của Eyefinity, nhu cầu đầu tiên đến trực tiếp từ các OEM.

ATI đã làm việc trên phiên bản di động của kiến trúc RV870 của mình và nhận ra rằng nó có một số cổng DisplayPort (DP) theo yêu cầu của các OEM. Các OEM muốn tới sáu cổng DP từ GPU, nhưng chỉ với hai hoạt động tại một thời điểm. Sáu đến từ hai sử dụng bảng điều khiển nội bộ (nếu một OEM muốn làm một máy tính xách tay hai màn hình), hai cho kết quả đầu ra bên ngoài (ví dụ một DP và một DVI / VGA / HDMI). Một lần nữa, chỉ có hai được hoạt động cùng một lúc như vậy GPU có sáu làn DP nhưng các khả năng hiển thị chỉ có hai cùng một lúc.

ATI đã xem xét các nỗ lực cần thiết để cho phép tất cả sáu đầu ra cùng một lúc, vì thế GPU RV870 có thể xuất ra tối đa sáu màn hình cùng một lúc. Không phải tất cả các card đều hỗ trợ khả năng này vì trước tiên cần phải có đầy đủ số lượng cần thiết của đầu ra hiển thị trên chính card đó. Radeon HD 5870 tiêu chuẩn chỉ có ba đầu ra đồng thời: kết hợp cổng DVI và cổng HDMI cho ra 2 màn hình, và một đầu ra độc lập của DisplayPort DVI / HDMI. Sau đó trong năm nay, bạn sẽ thấy một phiên bản card đồ họa với sáu đầu ra DisplayPort cho phép xuất ra tới sáu màn hình.

Không chỉ là phần cứng, mà phải có cả phần mềm. Trình điều khiển của dòng Radeon HD 5000 cho phép bạn kết hợp tất cả các kết quả đầu xuất ra màn hình thành một hình ảnh lớn duy nhất, hiển thị cho Windows và các trò chơi của bạn như là một hình ảnh hiển thị duy nhất với độ phân giải lớn.

Tôi thiết lập một nhóm ba màn hình Dell 24"(model U2410s). Bạn có thể nhóm ba màn hình $200 với độ phân giải 1920 x 1080 với nhau và cho một độ phân giải hơn một màn hình đơn 30".

Để kiểm nghiệm công nghệ Eyefinity chúng tôi đã chọn sử dụng các đầu xuất tín hiệu trên card đồ họa, đó là một cổng DVI, một cổng HDMI và cổng DisplayPort:

Với cả ba đầu ra được kết nối, mặc định Windows để nhân bản hiển thị trên tất cả các màn hình. Vào ATI Catalyst Control Center cho phép bạn cấu hình các nhóm Eyefinity của bạn:

Với ba màn hình hiển thị được kết nối tôi có thể tạo ra cách sắp xếp hiển thị 1x3 hoặc 3x1. Tôi cũng đã có khả năng xoay hiển thị ở chế độ chân dung.

Bạn có thể tạo các nhóm nhỏ hơn, mặc dù khả năng để làm điều đó biến mất sau khi tôi tạo ra thiết lập Eyefinity đầu tiên của tôi (ngay cả sau khi xóa nó và cố gắng để tái tạo nó). Một khi bạn đã chọn kiểu hiển thị Eyefinity bạn muốn tạo, trình điều khiển sẽ sắp xếp các bảng của bạn.

Nếu chấp nhận, chỉ cần nhấp vào Yes để tiếp tục. Nếu không thì ATI có một cách thuận tiện để xác định vị trí màn hình của bạn:

Với các ứng dụng phần mềm, bây giờ bạn có một bề mặt đơn lớn (Single Large Surface) theo như cách gọi của ATI. Màn hình xuất hiện như một bảng tiếp giáp với độ phân giải cho hệ điều hành và tất cả các ứng dụng / trò chơi:

Ba màn hình 24" tạo ra độ phân giải tổng cộng đến 5760 x 1200

Ảnh chụp màn hình ở trên cho bạn thấy vấn đề đầu tiên với cách thiết lập một Eyefinity : đó chính là tỉ lệ. Trong khi các máy tính để bàn Windows chỉ đơn giản mở rộng để cung cấp cho bạn với khả năng hiển thị trên nhiều màn hình nhưng mỗi màn hình chỉ hiển thị 1 hình ảnh nhất định, và trò chơi không tăng được độ phân giải. Ở đây độ phân giải chính xác được liệt kê trong Batman Arkham Asylum, là 5760:1200! nhưng tỉ lệ không phải là 16:9. Trong các tình huống này thiết lập Eyefinity làm tôi cảm thấy hết sức kỳ lạ. Việc kéo giãn hiển thị làm hình ảnh bị biến dạng.

Mặc dù Oblivion có hỗ trợ tỉ lệ độ phân giải ultra wide, nhưng khi hiển thị game vẫn bị kéo giãn độ phân giải theo phương nằm ngang

Một số game khác thì hiển thị đúng. Resident Evil 5 hiển thị đúng độ phân giải, với đúng tỷ lệ 16:9 mà không bị kéo giãn. Nói cách khác, trong khi màn hình của tôi chỉ có thể hiển thị 1200 pixel theo phương cao (high), các trò chơi lại dựng hình đến 3240 pixel cao dẫn đến các menu không sử dụng được và một trò chơi mà không thực sự chơi được.

Những game với những đoạn chuyển cảnh được dựng hình từ trước (pre-rendered cutscenes) thường không tốt với công nghệ Eyefinity. Trong thực tế, thường có xu hướng chỉ chiếm phần giữa của màn hình. Hình ảnh dưới đây là một ví dụ :

nguồn: AnandTech: AMD's Radeon HD 5870: Bringing About the Next Generation Of GPUs