Intel Panther Lake - omówienie mikroarchitektury Cougar Cove i Darkmont, a także usprawnień dla Thread Director
Od dłuższego czasu w sieci pojawiały się doniesienia i plotki o nadchodzących procesorach Intel Core Ultra. Teraz firma z Santa Clara odkryła karty, ujawniając szczegóły dotyczące układów z rodziny Panther Lake, które trafią do notebooków w ramach serii Core Ultra 300. Choć ich specyfikacja jest już znana, dopiero teraz poznaliśmy dokładny opis architektury rdzeni Cougar Cove i Darkmont, usprawnień w działaniu Thread Directora oraz procesu Intel 18A.
Architektura rdzeni Cougar Cove (P-Core) oraz Darkmont (E-Core i LP-E) stanowi ewolucję poprzednich generacji, jednocześnie eliminując istotne problemy, m.in. wysokie opóźnienia oraz nieoptymalne rozmieszczenie kontrolera pamięci, który teraz ponownie znajduje się w Compute Tile.
Intel Panther Lake - Oficjalna zapowiedź nowych procesorów dla laptopów. Cougar Cove, Darkmont i Xe3 na pokładzie
Procesory Intel Core Ultra 300 z rodziny Panther Lake będą podzielone na trzy linie produktów, bazujące na dwóch różnych, choć zbliżonych konstrukcjach układów. Modele z serii Core Ultra 300U (czyli wersje niskonapięciowe) wykorzystają cztery rdzenie Cougar Cove (Performance) oraz cztery rdzenie Darkmont typu LP-E (Low Power Efficient). Dół chipu wypełni blok GPU Tile zawierający cztery rdzenie Xe3, natomiast po prawej stronie znajdzie się Platform Controller Tile - fragment układu odpowiedzialny za interfejsy I/O, takich jak PCIe 5.0, Thunderbolt 5, USB 4.0 itp., a także za funkcje zarządzania energią i bezpieczeństwa (np. TPM). Całość konstrukcji uzupełnia Dummy Tile w prawym dolnym rogu, pozbawiony elementów elektronicznych, który pełni wyłącznie funkcję mechaniczną i pozwala zachować prostokątny kształt chipu.
Dzięki litografii Intel 18A, układy Panther Lake mają przynieść duży wzrost efektywności energetycznej względem Lunar Lake
Modele z serii Core Ultra 300H i X300H (czyli wersje wysokonapięciowe oraz wyposażone w mocniejsze układy graficzne) wykorzystają cztery rdzenie Cougar Cove (Performance), osiem rdzeni Darkmont (Efficient) oraz cztery rdzenie Darkmont LP-E. Podobnie jak w wersjach niskonapięciowych, dół chipu zajmuje blok GPU Tile, jednak w tym przypadku został on znacząco rozbudowany i obejmuje 12 rdzeni Xe3. Po prawej stronie umieszczono ten sam Platform Controller Tile. Cały układ jest dłuższy, a jego konstrukcja została uzupełniona o dwa bloki Dummy Tile w prawym dolnym i górnym rogu, aby zapewnić symetrię chipu.
Intel naprawił największy problem Arc B580. Gracze z AMD Ryzen 5 5600 dostaną nawet 36% wydajności więcej
Warto podkreślić, że kontroler pamięci RAM znajduje się w bloku Compute Tile, czyli tym, który zawiera rdzenie obliczeniowe. Pozwala to na redukcję opóźnień dostępu do pamięci, będących w architekturze Arrow Lake jedną z głównych przyczyn niższej wydajności w grach wideo. Podsystem pamięci również został przeprojektowany. Cztery rdzenie Darkmont LP-E korzystają ze współdzielonej pamięci podręcznej L2 o pojemności 4 MB, a dodatkowo dysponują własną Memory-side Cache (poziom L3), pełniącą rolę bufora danych pomiędzy pamięcią RAM a rdzeniami o niskim poborze mocy. Rdzenie Darkmont (Efficient), podobnie jak wariant LP-E, otrzymały 4 MB pamięci podręcznej L2 na każdy klaster 4 rdzeni, natomiast rdzenie Cougar Cove (Performance) posiadają 3 MB pamięci Cache L2 i współdzielą pamięć podręczną L3 o pojemności 18 MB z rdzeniami Efficient, co zapewnia lepszą koherencję danych i wyższą efektywność w zadaniach wielowątkowych.
Byli członkowie zarządu Intela proponują podział na niezależne jednostki: produkcyjną i projektową w ramach prywatyzacji
Rdzenie Performance oparte na architekturze Cougar Cove mają łącznie 18 potoków wykonawczych, w identycznej konfiguracji jak rdzenie Lion Cove w CPU z rodziny Lunar Lake i Arrow Lake. Vector Scheduler (V0–V3) odpowiada za operacje SIMD, FMA, SHUF i FPDIV na jednostkach ALU, czyli wykonuje operacje zmiennoprzecinkowe i logiczne na wektorach. Integer Scheduler (P0–P5) udostępnia sześć portów do operacji całkowitoliczbowych JMP, SHIFT i MUL na jednostkach ALU. Store Data Scheduler (P10–P11) zapewnia dwa porty do zapisu danych (STD). Memory Scheduler (P20–P27) obejmuje sześć portów z jednostkami AGU: trzy obsługują odczyt danych z pamięci, a trzy STA (Store Address), czyli obliczanie adresów zapisu dla danych.
Intel wydziela osobne sterowniki iGPU dla procesorów Core od 11 do 14. generacji. Wsparcie producenta powoli zmierza do końca
Rdzenie Cougar Cove umożliwiają dynamiczne przydzielanie instrukcji między jednostki wektorowe (VEC) a całkowitoliczbowe (INT) w silniku wykonawczym typu out-of-order, co pozwala na wykonywanie instrukcji poza kolejnością zapisaną w programie. Dzięki temu rdzeń może równocześnie uruchamiać operacje zmiennoprzecinkowe i całkowitoliczbowe na dostępnych jednostkach ALU, efektywnie rozdzielać zadania między różne porty wykonawcze oraz maksymalizować przepustowość i wykorzystanie zasobów rdzenia (wide scheduling). Dodatkowo zwiększono pojemność bufora TLB (Translation Lookaside Buffer) o 1,5 raza. To specjalna pamięć podręczna procesora, przechowująca mapowanie adresów wirtualnych na fizyczne komórki w pamięci RAM, co pozwala CPU znacznie szybciej lokalizować dane w pamięci, bez konieczności każdorazowego odwoływania się do tablicy stron.
Intel 14A - litografia ma przynieść dużą energooszczędność względem procesu Intel 18A, jednak kosztem ceny wafla
Rdzenie Performance, podobnie jak w poprzedniej generacji, zmieniają swoje taktowanie w krokach co 16,67 MHz, zamiast dawniej stosowanych 100 MHz. Pozwala to na znacznie płynniejsze sterowanie wydajnością i poborem mocy w zależności od obciążenia. Mechanizm przewidywania rozgałęzień (Branch Prediction) został ulepszony pod kątem mniejszych opóźnień i wyższej efektywności działania. Choć zmiany nie są duże, w praktyce przekładają się na krótsze przestoje wynikające z zależności między instrukcjami oraz lepsze wykorzystanie zasobów rdzenia w mieszanych scenariuszach obliczeniowych. Taka konstrukcja, wraz z pozostałymi usprawnieniami, zwiększa równoległość przetwarzania instrukcji (ILP) i redukuje konflikty między operacjami odczytu i zapisu (memory disambiguation), co poprawia wydajność w zastosowaniach intensywnie korzystających z pamięci - takich jak gry, przetwarzanie multimediów czy wnioskowanie w modelach AI.
AMD Zen 6 - nadchodzące procesory Ryzen mogą wykorzystać nowy interkonekt oraz technologię pakowania TSMC InFO-oS
Architektura rdzeni Efficient oraz LP-E, oznaczona nazwą Darkmont, stanowi ewolucję wcześniejszej architektury Skymont. Rdzeń zachowuje przepustowość 128 bitów na cykl w odniesieniu do pamięci podręcznej L2, z której korzystają jednostki wykonawcze realizujące obliczenia wektorowe FP i SIMD. Wydajność określana jako 4x 128-bit oznacza, że w jednym takcie zegara procesor może przeprowadzić cztery równoległe operacje na 128-bitowych wektorach danych. W Darkmont zastosowano również mechanizm Deep Queueing, odpowiadający za głębokie kolejkowanie mikrooperacji, co pozwala utrzymać wysoką równoległość wykonania (ILP - Instruction Level Parallelism). Dodatkowo usprawniono wydajność nanokodu, ulepszono predykcję rozgałęzień (Branch Prediction) oraz predykcję instrukcji, co przekłada się na wyższą skuteczność przewidywania i ograniczenie opóźnień.
AMD Ryzen Embedded 9000 - nowa seria procesorów Zen 5. Gniazdo AM5, 3D V-Cache i nawet 5,7 GHz dla Ryzen Embedded 9950X3D
Budowa rdzeni Darkmont w dużej mierze zachowuje strukturę znaną z wcześniejszej architektury Skymont, z tą różnicą, że dodano obsługę operacji CLMUL (Carry-Less Multiply) dla obliczeń wektorowych. Instrukcje tego typu mogą być wykonywane wyłącznie przez dwa porty wykonawcze - porty 21 i 23. Rdzeń dysponuje 26 portami dyspozycyjnymi, jednak nie należy mylić ich z potokami wykonawczymi. Oznacza to, że Darkmont ma bardzo szeroki front-end i wysoką przepustowość w zakresie wysyłania mikrooperacji (µops) do jednostek wykonawczych ALU, zarówno całkowitoliczbowych (INT), jak i zmiennoprzecinkowych (FP). W praktyce Darkmont wyposażony jest w siedem jednostek AGU - z czego trzy odpowiadają za operacje odczytu danych (Load), a cztery za obliczanie adresów zapisu (Store Address). Dodatkowo rdzeń posiada sześć portów przypisanych do jednostek ALU, które wykonują operacje całkowitoliczbowe.
Charakterystyka mikroarchitektury Lion Cove oraz Skymont dla procesorów Intel Lunar Lake oraz Arrow Lake
Wprowadzono również zmiany w zakresie Thread Directora, zoptymalizowano kwalifikację instrukcji względem typu rdzenia oraz umożliwiono wykonanie tych samych zadań na wszystkich trzech typach rdzeni, przy jednoczesnym usprawnieniu zarządzania energią. System operacyjny przydziela zadanie rdzeniom, a Thread Director analizuje jego charakterystykę, klasyfikuje wątek i generuje ocenę w formie "tabeli" informacji zwrotnej. Dane te są następnie odczytywane przez system operacyjny, tworząc dynamiczną pętlę optymalizacyjną, która pozwala efektywnie rozdzielać zadania między rdzenie w czasie rzeczywistym. Intel przedstawił działanie ulepszonego mechanizmu zarządzania rdzeniami na przykładzie gry Control, testu pakietu biurowego w UL Procyon, Cinebench 2024 MT oraz w Microsoft Teams. Firma wraz z partnerami wprowadzi funkcję Intelligent Experience Optimizer, której głównym zadaniem będzie autonomiczne zarządzanie energią i wydajnością CPU, co ma zapewnić 19% wzrostu wydajności.
Intel Arrow Lake Refresh z premierą dopiero w 2026 roku. Desktopowe układy Nova Lake z debiutem pod koniec 2026 roku
Przechodząc do kwestii najistotniejszej, czyli wydajności obliczeniowej i efektywności energetycznej, Intel zapowiada, że pojedynczy wątek procesora ma zużywać nawet o 40% mniej energii przy zachowaniu tej samej wydajności, w porównaniu do poprzednich generacji. Alternatywnie, przy tym samym poborze mocy, możliwe będzie uzyskanie do 10% wyższej wydajności jednowątkowej. W przypadku pracy wielowątkowej producent deklaruje wzrost wydajności sięgający nawet 50% względem układów Lunar Lake, przy zbliżonym zużyciu energii. Co więcej, procesory z rodziny Panther Lake mają osiągać porównywalną wydajność wielowątkową do Arrow Lake, jednocześnie zużywając o około 30% mniej mocy.
Test ASUS Zenbook Duo z procesorem Intel Core Ultra 9 285H Arrow Lake-H. Laptop, który nie przeszedł wszystkich naszych testów
Podsumowując, architektura procesorów z rodziny Panther Lake, a w konsekwencji rdzeni Darkmont (E-Core i LP-E) oraz Cougar Cove (P-Core), stanowi przede wszystkim rozwinięcie i korektę błędów poprzednich generacji, zwłaszcza Arrow Lake i częściowo Lunar Lake. Kluczowym elementem konstrukcji pozostaje fakt, że kontroler pamięci znajduje się w bloku Compute Tile wraz ze wszystkimi typami rdzeni, a Intel znacząco zoptymalizował opóźnienia wewnątrz chipu. Wygląda na to, że inżynierowie Intela wyciągają wnioski z porażek i dołożyli wszelkich starań, aby wyeliminować problemy wcześniejszych generacji. Trudno również nie zauważyć, że wyższą wydajność obliczeniową i energetyczną w dużej mierze zapewnia nowa litografia Intel 18A.
Powiązane publikacje

Intel Core Ultra X9 388H z pierwszymi testami wydajności dla układu graficznego Xe3. Jest spory skok względem Intel ARC 140V
16
Procesory AMD Zen 6 mają działać na wszystkich płytach głównych AM5. Pojemność BIOS-u nie powinna mieć znaczenia
60
Czip Apple M5 zadebiutował. Lepsza obsługa AI i Ray Tracingu oraz usprawniona pamięć RAM. Omówienie i porównanie z M3 i M4
26
Polska firma CBRTP opracowuje technologię 8-calowych wafli GaN dla europejskiej niezależności półprzewodnikowej
45