Główne założenia, które przyświecały inżynierom Intela podczas projektowania Penryna to zwiększenie wydajności procesora przy takim samym taktowaniu oraz podwyższenie samej częstotliwości taktowania. Niejako przy okazji, w Penrynie postanowiono również zmniejszyć zapotrzebowanie na prąd, co jest zgodne z polityką Intela polegającą na zwiększaniu tzw. "Performance per Watt", czyli wydajności w przeliczeniu na jednostkę mocy. Chodzi o to, żeby tworzyć procesory, które przy zbliżonym poborze energii będą w stanie pracować coraz wydajniej. Cele te osiągnięto na drodze ewolucyjnych zmian, bez dramatycznego przeprojektowywania układu. Takim drastycznym redesignem, między innymi obejmującym integrację kontrolera pamięci na procesorze, będzie dopiero architektura Nehalem, która ma pojawić się na rynku pod koniec 2008 roku.
architektura pojedynczego rdzenia w procesorach z rodziny Penryn
Co poprawiono w architekturze Conroe? Po pierwsze, przyspieszono dzielenie. Nowe algorytmy Fast Radix-16 Divider pozwalają na zwiększenie wydajności dzielenia niemal dwukrotnie, umożliwiają też szybsze niż dotąd wyliczanie pierwiastków. Dzięki temu w jednym cyklu zegara procesor jest w stanie przetworzyć cztery bity - zamiast dwóch, jak dotychczas. Nowy algorytm dzielący został zaprojektowany na tyle uniwersalnie, że może być wykorzystywany zarówno do operacji na liczbach zmiennoprzecinkowych, jak i całkowitych.
Kolejna nowość to 47 nowych instrukcji, nazwanych zbiorczo mianem SSE4 (a dokładniej, SSE 4.1). Jest to kolejne i jednocześnie największe poszerzenie listy rozkazów SSE w historii procesorów Intela. Nowe instrukcje są przydatne między innymi do zwiększenia wydajności kodowania plików wideo, czy generowania grafiki trójwymiarowej. Wykorzystujące je specjalistyczne oprogramowanie potrafi dzięki nim pracować niemal 2 razy szybciej.
Z SSE4 wiąże się nowy silnik Super Shuffle Engine. Pozwala on na szybsze wykonywanie rozkazów SSE - nawet o kilkaset procent. 128-bitowe operacje SSE mogą być teraz wykonywane w jednym cyklu zegara, co ciekawe, bez konieczności rekompilacji oprogramowania. Oznacza to, że dotychczasowy soft wykorzystujący SSE powinien dość mocno zyskać na wydajności.
W Penrynie zwiększeniu ulegnie rozmiar pamięci podręcznej drugiego poziomu. Dwurdzeniowe procesory będą wyposażone w maksymalnie 6MB pamięci cache L2, natomiast czterordzeniowcom dostanie się 12 MB. W procesorach czterordzeniowych, pamięć L2 będzie podzielona na dwie części, po połowie dla każdego z rdzeni. Oprócz zwiększenia rozmiaru, Intel dokonał też ulepszeń w architekturze, mających na celu redukcję opóźnień w dostępie do danych umieszczonych w pamięci L2.
Inne zmiany, już o mniejszym ciężarze gatunkowym to Split Load Cache, czyli poprawione algorytmy przydzielania pamięci L2 do poszczególnych jąder procesora, czy Enhanced Intel Virtualization Technology, będąca udoskonaloną, szybszą wersją stosowanej już od jakiegoś czasu u Intela technologii wirtualizacji. Wzrośnie też prędkość taktowania szyny procesora - oferowane będą modele z 1600 MHz PSB.
podsumowanie nowości w architekturze procesorów z rodziny Penryn
Mobilne wersje Penryna otrzymają dodatkowo nowe możliwości oszczędzania energii. Będą to: Deep Power Down Technology oraz Enhanced Dynamic Acceleration Technology. Deep Power Down ma na celu zdecydowaną redukcję zapotrzebowania procesora na prąd w momencie, kiedy nie jest on obciążony wykonywaniem ton instrukcji. Wyłączany jest wówczas cache L1 i L2 oraz zegar taktujący rdzeń. Z kolei Dynamic Acceleration Technology to sprytny pomysł na zwiększenie wydajności procesora w momencie, kiedy wykorzystywany jest jedynie jeden jego rdzeń (np. w grach działających na jednym wątku). Polega on na zwiększeniu taktowania jednego z rdzeni procesora w momencie, kiedy drugi niczym się nie zajmuje. Dzięki temu niedobór wydajności wynikający z nieużywanego drugiego rdzenia rekompensowany jest przez większą prędkość pierwszego. Technologia została przy tym tak przemyślana, aby nie wymykać się poza ramy określonego dla danego procesora poboru mocy (TDP).
Wydajność w teorii
Ulepszenia zastosowane w procesorach z rodziny Penryn mają bezpośrednio przełożyć się na wzrost wydajności. Jednak będzie on odczywalny w różnym stopniu w różnych aplikacjach. Zalety Penryna (a dokładniej, jego nowych instrukcji) w największym stopniu zobaczymy w aplikacjach wykorzystujących nowy zestaw instrukcji SSE4, takich jak np. DivX 6.6.1. Tam nowy procesor ma dać ponad 60% wzrost wydajności. Z kolei w dotychczasowych aplikacjach, których programiści nic o SSE4 nie wiedzieli, przyspieszenie wyniesie zaledwie kilka, kilkanaście procent (zazwyczaj ok. 5-10%). Z jednej strony nie jest to rewolucja, ale z drugiej, przy tym samym zegarze otrzymujemy o 10% szybszy procesor. Można więc w przybliżeniu założyć, że w większości zadań 2.66 GHz Penryn będzie odpowiadał wydajnościowo 2.9 MHz Conroe, co nie jest złym wynikiem.