Moduły optyczne 400G w nowoczesnych sieciach

Dec 17, 2025|

 

TheModuł optyczny 400Gstanowi zarówno triumf pragmatyzmu inżynieryjnego, jak i źródło ciągłych problemów operacyjnych. W swojej istocie robi coś prostego: przepuszcza 400 miliardów bitów na sekundę przez szkło za pomocą światła. Implementacja obejmuje wiele form, schematów modulacji, konfiguracji długości fali i interpretacji dostawców tego, co w rzeczywistości oznacza „kompatybilny”. Modulacja PAM4 doprowadziła branżę do tego progu prędkości poprzez kodowanie dwóch bitów na symbol zamiast jednego, skutecznie podwajając przepustowość bez podwajania szybkości transmisji-ale ta decyzja niesie ze sobą konsekwencje, które odbijają się na każdej warstwie stosu wdrożeniowego, od krzemu DSP spalającego 12 watów wewnątrz modułu po silniki FEC na platformie hosta, które próbują skorygować podwyższone błędy bitowe, które z natury wytwarza PAM4.

31

 

Wojny o współczynnik kształtu, których nikt nie wygrał

 

QSFP-DD i OSFP wyłoniły się z procesu standaryzacji jak dwoje rodzeństwa, które nie mogło zgodzić się na nic poza tym, że oboje chcieli 400G. Branża potrzebowała ośmiu linii elektrycznych o przepustowości 50 Gb/s każda, a dwa różne konsorcja postanowiły rozwiązać ten problem na dwa różne sposoby.

QSFP-DD wygrał argument dotyczący zgodności. Pasuje do istniejących klatek QSFP28, jeśli wystarczająco mrużysz oczy i nie przeszkadza Ci drugi rząd kołków. Zgodność wsteczna ma znaczenie, gdy masz dziesiątki tysięcy wdrożonych portów i dyrektora finansowego, który zadaje konkretne pytania na temat osieroconych zasobów.

OSFP wygrał argument termiczny. Nieco większa obudowa i zintegrowany radiator oznaczają, że możesz faktycznie rozproszyć 15-20 watów pobieranych przez te moduły bez konieczności gotowania sąsiednich portów. Widziałem karty liniowe, w których narożne porty QSFP-DD stale nagrzewały się o 8 stopni cieplej niż środkowe, ponieważ projekt przepływu powietrza zakładał obwiednie mocy 100 G.

Żadne z nich tak naprawdę nie wygrało. Większość hiperskalerów zdecydowała się na QSFP-DD ze względu na prostotę inwentaryzacji. Większość wdrożeń telekomunikacyjnych korzystała z protokołu OSFP, ponieważ ich spójne moduły wymagały zapasu ciepła. Wszyscy pozostali wybrali to, co dostarczył im dostawca przełączników, i ruszyli dalej.

Wariant QSFP112 zasługuje na wzmiankę, bo dezorientuje wszystkich. Cztery pasy po 100 G każdy-ta sama łączna przepustowość 400 G, mniej pasów, nowsze SerDes. Ma to znaczenie w przypadku łączności karty sieciowej, gdzie wymagane jest połączenie serwera-z-TOR bez konieczności stosowania skomplikowanej skrzyni biegów DSP. Ma to mniejsze znaczenie, niż twierdzą sprzedawcy gdzie indziej.

 

PAM4 zmienił wszystko (i zepsuł kilka rzeczy)

 

Oto, czego nikt odpowiednio nie wyjaśnia, gdy sprzedaje Cię w sieci 400G: sygnalizacja PAM4 zamienia odporność na szumy na wydajność przepustowości, a ten kompromis nie jest darmowy.

Kodowanie NRZ wykorzystywało dwa poziomy sygnału. Wysokie lub niskie. Jeden lub zero. Twój odbiornik musiał jedynie rozróżnić te dwa stany, a diagram oka dał ci wygodne marginesy. PAM4 wykorzystuje cztery poziomy-00, 01, 10, 11-, co oznacza, że ​​Twój odbiornik musi teraz rozróżnić trzy przekroczenia progu z odstępem wynoszącym jedną trzecią napięcia. Teoretyczna kara SNR wynosząca 9,54 dB nie jest wcale teoretyczna. Pojawia się w licznikach BER przed FEC każdego dnia.

DSP w module 400G wykonuje heroiczną pracę, kompensując to. Korekcja sygnału-w przód, korekcja ze sprzężeniem zwrotnym decyzji, odzyskiwanie zegara i danych-wszystko działa z szybkością 53,125 GBaud na linię. Kiedy działa, jest niewidoczne. Jeśli to nie zadziała, pojawiają się serie błędów, które można naprawić, przerywane sporadycznie takimi, których nie da się naprawić. Powodzenia w ustalaniu, czy problemem jest moduł, światłowód, host, czy kosmiczne promieniowanie tła.

 

info-500-197

 

W zeszłym roku spędziłem dwa tygodnie na poszukiwaniu sporadycznego błędu na łączu DR4, który okazał się błędem oprogramowania układowego DSP, który objawiał się tylko wtedy, gdy temperatura otoczenia przekraczała 31 stopni. Sprzedawca potwierdził problem trzy miesiące po otwarciu sprawy. Aktualizacja oprogramowania sprzętowego, która to naprawiła, zepsuła także interoperacyjność z jedną z naszych starszych platform przełączników.

Sytuacja FEC pogłębia tę sytuację. KP4 FEC-RS(544,514) dla specjalistów od standardów-może skorygować do 15 błędów symboli na słowo kodowe, co wydaje się hojne, dopóki nie zorientujesz się, jak często tego potrzebujesz. Uruchamianie 400G bez FEC jest nie tylko niewskazane; jest to niemożliwe w większości przypadków użycia. Zysk na kodowaniu zapewnia około 7 dB marginesu, który PAM4 natychmiast zużywa.

 

Warianty długości fali: więcej niż tylko zasięg

 

Specyfikacje zasięgu mówią tylko część historii.

400G-SR8 wykorzystuje diody VCSEL o długości fali 850 nm w ośmiu równoległych włóknach, przesyłając sygnał na odległość 100 metrów przez OM4. To jest tanie. Jest wielomodowy. Wymaga złącza MPO-16 z ośmioma włóknami TX i ośmioma włóknami RX. Działa to dobrze w obrębie szafy lub pomiędzy sąsiednimi szafami. Gdy ktoś zapyta, czy można go poprowadzić „trochę dalej”, przypomnij mu, że dyspersja modowa przy 850 nm nie negocjuje.

400G-DR4 działa w paśmie 1310 nm przez cztery równoległe włókna jedno-modowe o zasięgu 500 metrów. Złącze MPO-12 wykorzystuje osiem zewnętrznych włókien, a cztery pozostawia nieużywane-co dezorientuje instalatorów kabli mniej więcej raz na wdrożenie. DR4 stał się najważniejszym czynnikiem zapewniającym łączność-w instalacjach jednomodowych, ponieważ 500 metrów obejmuje większość geometrii centrów danych i pozostaje wolne miejsce.

400G-FR4 wykorzystuje długości fal CWDM4 (1271, 1291, 1311, 1331 nm) multipleksowane na pojedynczej parze włókien za pomocą dupleksu LC. Dotarcie na dwa kilometry. W tym miejscu sieć 400G zaczyna wydawać się ekonomiczna dla połączeń międzysieciowych na kampusach, ponieważ nie trzeba ciągnąć ośmiu-światłowodowych łączy MPO między budynkami.

400G-LR4 rozciąga to samo podejście CWDM4 do 10 kilometrów z większą mocą startową i lepszymi odbiornikami. Skok cen z FR4 na LR4 wciąż zaskakuje działy zaopatrzenia, które nie zaktualizowały swojego modelu mentalnego z cen 100G-LR4.

 

Spójny słoń

 

400G-ZR zasługuje na oddzielny rozdział, ponieważ reprezentuje zasadniczo inną technologię w tej samej obudowie.

Wszystko, co do tej pory opisałem, wykorzystuje optykę-bezpośrednią. Światło dociera do wnętrza, fotodioda je przetwarza, a procesor DSP oczyszcza. Spójna optyka koduje informacje zarówno w amplitudzie, jak i fazie w dwóch polaryzacjach jednocześnie, a następnie wykorzystuje lokalny oscylator i zaawansowane cyfrowe przetwarzanie sygnału, aby odzyskać wszystko w odbiorniku. Wynik: 400 Gb/s na 120+ kilometrach niewzmacnianego światłowodu w wymiennym module.

Standard OIF 400ZR określa modulację 16QAM przy 60 GBaud z podwójną polaryzacją. Połączony FEC (wewnętrzna funkcja Hamminga z twardą-decyzją, zewnętrzna klatka schodowa z twardą-decyzją) zapewnia około 10,8 dB wzmocnienia kodowania netto. Całość pobiera 15-20 watów i generuje ciepło, które spowodowałoby płacz modułu QSFP-DD.

Widziałem moduły ZR zainstalowane w przełącznikach, które nie zostały zaprojektowane dla tego obciążenia termicznego. Obudowa przełącznika zgłaszała normalne temperatury, ponieważ czujniki wlotowe mierzyły chłodne powietrze. Moduł zgłosił 73 stopnie, ponieważ został umieszczony pomiędzy dwoma innymi modułami ZR z niewystarczającym przepływem powietrza. Łącze działało-ledwie-przy podwyższonych poprawkach FEC, których nikt nie zauważył, dopóki współczynnik BER przed-FEC nie przekroczył progu i pakiety nie zaczęły spadać.

Warianty ZR+ i MZR zwiększają zasięg kosztem interoperacyjności. Ulepszenia-dostawcy dotyczące mocy uruchamiania, czułości odbiornika i algorytmów FEC mogą wydłużyć łącza powyżej 400 km, ale kupujesz rozwiązanie, a nie towar.

 

info-500-253

 

Pytanie strony trzeciej

 

Prowadziłem tę rozmowę około sześćset razy.

„Czy możemy zastosować-optykę 400G innej firmy?”

Technicznie tak. Specyfikacje MSA istnieją właśnie po to, aby umożliwić interoperacyjność- wielu dostawców. Zgodny QSFP-DD producenta X powinien zachowywać się identycznie jak QSFP producenta Y. Normy IEEE definiują parametry optyczne i elektryczne. CMIS (Specyfikacja wspólnego interfejsu zarządzania) standaryzuje sposób, w jaki host komunikuje się z modułem.

Praktycznie to zależy.

Mechanizmy uwierzytelniania Cisco ewoluowały od tępego podejścia polegającego na-wyłączeniu portu przez błąd, stosowanego w starszych platformach, do bardziej wyrafinowanej weryfikacji dostawcy, która rejestruje ostrzeżenia, ale niekoniecznie wyłącza funkcjonalność. Polecenie nieobsługiwanego-nadawczo-odbiorczego usługi pozostaje włazem ratunkowym. Arista jest zwykle bardziej liberalna, ale odmawia wsparcia w przypadku problemów, które mogą wynikać z modułów-innych firm. Stanowisko firmy Juniper różni się w zależności od platformy i wersji oprogramowania, co wymaga sprawdzenia ich matryc kompatybilności.

Bez wahania używam-optyki innych firm w środowiskach laboratoryjnych. Dla ścieżek produkcyjnych przenoszących ruch dochodowy o 2 w nocy, gdy coś zawiedzie? Chcę móc zadzwonić do TAC i poprosić ich o rzeczywistą pomoc, zamiast natychmiastowej zmiany kierunku na „wymiana na obsługiwane transceivery”.

Matematyka kosztów zmienia tę kalkulację w przypadku hiperskali, którzy kupują moduły dziesiątkami tysięcy i zatrudniają inżynierów optyków, którzy mogą niezależnie charakteryzować i kwalifikować dostawców. Inaczej wygląda sytuacja w przypadku przedsiębiorstw kupujących setki modułów za pośrednictwem kanałów dystrybucji przy ograniczonych zasobach technicznych.

 

Rzeczywistość termiczna

 

Moduł 400G QSFP-DD pobiera od 10 do 15 watów, w zależności od wariantu i dostawcy. Spójny moduł ZR 400G pobiera 15-20 watów. Moduł 800G QSFP-DD800-już wdrożony w klastrach AI pobiera 18–25 watów.

Umieść 64 z nich w przełączniku 2RU, a otrzymasz 640 watów samej optyki, przed uwzględnieniem układu ASIC przełącznika, pamięci, wentylatorów i zasilaczy. Problem związany z projektowaniem termicznym zmienił się z „odpowiedniego” na „krytyczny” w ciągu jednego pokolenia.

Podczas testu kwalifikacyjnego widziałem, jak kamera termowizyjna omiata w pełni-w pełni obciążony przełącznik kręgosłupa 400G. Najgorętsze moduły nie były tymi, których można było się spodziewać. W pozycjach narożnych, za wiatrem od wydechu ASIC, panowała wyższa temperatura niż w przypadku modułów środkowych z płytą czołową, do których docierało świeże powietrze. Standardowe odczyty temperatury DDM wykazały różnicę 17 stopni w portach, które rzekomo były identyczne.

Specyfikacje modułu obiecują działanie w zakresie od 0 stopni do 70 stopni, ale krzywe wydajności nie wyglądają tak samo przy 70 stopniach, jak przy 25 stopniach. Zwiększa się prąd progowy lasera. Wydajność zbocza maleje. Dryft długości fali-a w przypadku systemów CWDM4 i DWDM dryft długości fali oznacza przesłuch z sąsiednimi kanałami.

Systemy chłodzone-powietrzem zbliżają się do swoich granic. Chłodzenie cieczą w przełącznikach pozostaje egzotyczne, ale coraz bardziej niezbędne w przypadku klastrów AI/ML, w których procesory graficzne i optyka konkurują o ten sam budżet termiczny.

 

info-500-246

 

Testowanie rzeczywistości

 

Standardy IEEE definiują punkty zgodności. Nie gwarantują, że Twój konkretny link będzie działać.

TDECQ (czwartorzędowe zamknięcie oka nadajnika i dyspersji) jest odpowiednikiem PAM4 OMA (amplituda modulacji optycznej), ale jest bardziej skomplikowany. Próbuje scharakteryzować jakość nadajnika w sposób pozwalający przewidzieć działanie odbiornika. Pomiar wymaga odbiorników referencyjnych i przekształceń matematycznych, które różnią się w zależności od dostawcy sprzętu testowego w sposób powodujący niekończące się debaty komisji normalizacyjnych.

Testy wstępne-FEC BER mają większe znaczenie niż kiedykolwiek wcześniej. „Odcisk palca” błędów bitowych-przypadkowych lub seryjnych, równomiernie rozłożonych lub skoncentrowanych w określonych symbolach PAM4-określa, czy Twój FEC faktycznie może je skorygować. Prawdziwe błędy losowe dobrze współgrają z kodami-Reeda Salomona. Błędy seryjne wynikające z problemów z odzyskiwaniem zegara lub niewłaściwego zachowania DSP mogą przytłoczyć FEC, nawet jeśli surowy BER wygląda na akceptowalny.

Nauczyłem się wymagać statystyk przed-FEC dla każdego łącza 400G, a nie tylko po-FEC. Link pokazujący 0,00 post-FEC BER podczas działania przed-FEC BER przy 2×10⁻⁴ wygląda świetnie, dopóki nie zorientujesz się, że nie ma już prawie żadnego marginesu. Dodaj lekko zabrudzone złącze lub starzejący się laser, a łącze przewróci się w przepaść FEC bez ostrzeżenia.

 

Zanieczyszczenie złącza

 

Przy 400G problem zanieczyszczenia staje się poważny. Modulowane oko ma mniejszy margines. Cząsteczki, które byłyby niewidoczne przy niższych prędkościach, teraz osłabiają się na tyle, że mają znaczenie.

Rdzenie włókien-jednomodowych mają średnicę 9 mikrometrów. Złącze MTP/MPO-12 obsługuje osiem aktywnych ścieżek światłowodowych (cztery TX, cztery RX) plus cztery nieużywane. Każdy cykl krycia stwarza ryzyko zanieczyszczenia. Każda zanieczyszczona powierzchnia końcowa wiąże się z ryzykiem strat wtrąceniowych, które zjadają budżet łącza.

Wymagana dyscyplina sprzątania nie podlega-negocjacjom, ale rzadko jest konsekwentnie przestrzegana. Środki czyszczące jednym-kliknięciem, suche chusteczki elektrostatyczne, czyszczenie na mokro alkoholem izopropylowym, który należy natychmiast wytrzeć do sucha, a nie pozwolić, aby odparował-każda metoda ma zwolenników i krytyków. Co do tego wszyscy są zgodni: przed podłączeniem sprawdź światłowodem, a jeśli jest zabrudzony, wyczyść go i sprawdź ponownie.

Przez całe popołudnie obserwowałem, jak zespół wdrożeniowy pracował nad rozwiązywaniem problemów z sporadycznym łączem 400G-DR4. Wielokrotna wymiana modułów. Recenzje konfiguracji. W końcu przerwałem zakres inspekcji i znalazłem gruz budowlany na adapterze grodzi, którego nikt nie pomyślał, aby sprawdzić. Dwadzieścia sekund za pomocą narzędzia czyszczącego naprawiło to, czego nie udało się rozwiązać w ciągu czterech godzin.

 

info-500-276

 

Co to wszystko oznacza dla planowania

 

Jeśli dzisiaj wdrażasz nową strukturę centrum danych, 400 G to podstawa dla warstwy kręgosłupa, a coraz częściej dla łączy nadrzędnych typu „leaf{1}}spine”. Koszt za bit spadł do poziomu, w którym oderwanie się od modułu 4 × 100 G z modułu 400 G jest często tańsze niż pojedyncze moduły 100 G. DR4 dla czegokolwiek powyżej 30 metrów wewnątrz budynku. FR4 dla połączeń międzysieciowych kampusu. LR4 lub ZR, jeśli sięgasz między witrynami.

Jeśli prowadzisz przedsiębiorstwo, które rozważa pierwsze wdrożenie 400G, platformy przełączające są już dojrzałe, łańcuch dostaw modułów ustabilizował się, a ceny nie wymagają już-podpisywania przez kierownictwo każdego zamówienia zakupu. Zacznij od-odświeżenia kręgosłupa, udowodnij, że Twoja infrastruktura okablowania jest w stanie wytrzymać mniejszą tolerancję na zanieczyszczenia i zrozum, że Twoje narzędzia do zarządzania muszą zacząć zbierać statystyki FEC, zanim będą faktycznie potrzebne.

Jeśli czytasz ten tekst i jesteś hiperskalownikiem, przekroczyłeś już 400 Gb dla klastrów GPU i zastanawiasz się, jak faktycznie zostanie wdrożony 1,6 T. Powodzenia z problemami termicznymi; Przeczytam twoje prace za dwa lata.

Same moduły stały się niezwykle niezawodne. Problemy występują wszędzie indziej: zanieczyszczone złącza, źle skonfigurowane tryby FEC, projekty termiczne zakładające wczorajsze obwiednie mocy oraz organizacje wspierające, które wciąż uczą się, jak rozwiązywać problemy z integralnością sygnału PAM4. Nieestetyczne podstawy-czyść złącza, mierz temperaturę, poznaj budżet FEC-mają większe znaczenie niż kiedykolwiek będą dyskusje na temat specyfikacji technicznych.

 

Wyślij zapytanie