Konstrukcja superskalarna procesora sprawia, że wewnątrz jednego procesora powstaje forma obliczeń równoległych zwana paralelizmem na poziomie instrukcji, co pozwala na wykonanie większej ilości pracy przy tej samej szybkości zegara. Oznacza to, że CPU wykonuje więcej niż jedną instrukcję podczas cyklu zegara, uruchamiając wiele instrukcji w tym samym czasie (nazywanych wysyłaniem instrukcji) na zduplikowanych jednostkach funkcjonalnych. Każda jednostka funkcjonalna jest tylko zasobem wykonawczym wewnątrz rdzenia jednostki centralnej, jak jednostka arytmetyczno-logiczna (ALU), jednostka zmiennoprzecinkowa (FPU), nieco przesuwacz lub mnożnik.
Większość superskalarnych procesorów jest również przesyłana w trybie potokowym, ale możliwe jest posiadanie nie przesyłanego w trybie potokowym superskalarnego CPU lub przesyłanego nie przesyłanego w trybie potokowym superkalarnego CPU.
Technika superscalarna jest wspierana przez kilka funkcji rdzenia procesora:
- Instrukcje pochodzą z zamówionej listy instrukcji.
- Sprzęt procesora może określić, które instrukcje mają jakieś zależności od danych.
- Potrafi odczytać wiele instrukcji w jednym cyklu zegara
Każda instrukcja uruchomiona przez procesor skalarny zmienia jeden lub dwa elementy danych na raz, ale każda instrukcja wykonana przez procesor wektorowy obsługuje wiele elementów danych na raz. Procesor superskalarny jest połączeniem tych dwóch elementów:
- Każda instrukcja przetwarza jedną pozycję danych.
- Wewnątrz każdego rdzenia procesora znajduje się wiele zduplikowanych jednostek funkcjonalnych, dzięki czemu wiele instrukcji obsługuje jednocześnie niezależne elementy danych.
W superskalarnym CPU dyspozytor instrukcji odczytuje instrukcje z pamięci i decyduje, które z nich mogą być uruchamiane równolegle, wysyłając je na wiele zduplikowanych jednostek funkcjonalnych dostępnych wewnątrz jednostki centralnej.
Konstrukcja procesora Superscalar ma na celu zwiększenie dokładności dyspozytora instrukcji i umożliwienie mu utrzymywania wielu jednostek funkcjonalnych w ciągłym ruchu. Od 2008 roku wszystkie jednostki centralne ogólnego przeznaczenia są superskalarne, typowy superkomputer może zawierać do 4 jednostek ALU, 2 FPU i dwie jednostki SIMD. Jeśli dyspozytor nie będzie w stanie zająć wszystkich jednostek, wydajność procesora będzie niższa.


