Przyszłość danych: moduł optyczny 400 g

Dec 22, 2025|

 

TheModuł optyczny 400Gstanowi zasadniczy punkt zwrotny w architekturze centrum danych, a nie jedynie przyrostową poprawę przepustowości w porównaniu z poprzednikami 100G. U podstaw technologii leży sygnalizacja PAM4 (4-poziomowa modulacja amplitudy impulsu) na ośmiu torach elektrycznych z szybkością 50 Gb/s każda, co pozwala uzyskać łączną przepustowość spełniającą wymagania dotyczące gęstości obliczeniowej nowoczesnych klastrów AI/ML i środowisk hiperskalowych. Przejście z kodowania binarnego NRZ na wielo-poziomową modulację amplitudy wprowadza nieodłączne kary SNR-teoretyczną degradację wynoszącą około 9,5 dB, co wymaga wyrafinowanych implementacji DSP i obowiązkowych schematów korekcji błędów w przód, takich jak RS(544,514), aby utrzymać akceptowalny współczynnik błędów bitowych w łączach produkcyjnych.

400g Optical Module

 

Wojny Form Factor, o których nikt nie mówi szczerze

 

Wejdź na dowolną konferencję dotyczącą sieci optycznych, a usłyszysz debatę QSFP-DD kontra OSFP ujętą w porównanie techniczne. To nie jest. To walka polityczna ubrana w specyfikacje.

QSFP-DD wygrało bitwę pod względem głośności przed dostawą pierwszego przełącznika 400G. Wsteczna kompatybilność z klatkami QSFP28 oznaczała, że ​​każdy operator sieci mógł teoretycznie dokonać aktualizacji bez niszczenia istniejącej infrastruktury. To „teoretycznie” wymaga dużego wysiłku.-Widziałem, jak inżynierowie spędzali całe weekendy, próbując sprawić, by oprogramowanie sprzętowe starszych przełączników rozpoznawało moduły o podwójnej-gęstości, które fizycznie pasują, ale elektrycznie zachowują się nieprawidłowo.

OSFP wyszedł z obozu Aristy z prostym planem: większy moduł, lepsza termika, zaprojektowany od podstaw dla 400G, zamiast wciskać osiem torów w klatkę zbudowaną dla czterech. Zintegrowany radiator obsługuje 15-20 watów bez większego wysiłku. QSFP-DD przy 12 watach? Już przesuwasz granice termiczne we wdrożeniach o dużej gęstości.

Branża i tak wybrała QSFP-DD. Zgodność wygrywa. Zawsze tak było.

Ale o tym nigdy nie wspominają artykuły porównujące współczynnik kształtu: różnice w pojemności cieplnej dramatycznie się zwiększają w skali. 32-portowy przełącznik 400G w pełni wypełniony modułami QSFP-DD rozprasza około 640 watów na samą optykę. To przed przełącznikiem ASIC, płaszczyzna sterująca, wentylatory, zasilacze. Mówimy o łącznej mocy 1,5–2 kilowatów w obudowie 1RU. Inżynieria przepływu powietrza wymagana do utrzymania tych modułów poniżej limitów temperatury złącza graniczy z konstrukcjami lotniczymi.

 

PAM4 sprawił, że wszystko stało się trudniejsze

 

Wszyscy świętują PAM4 za podwojenie wydajności widmowej. Nikt nie wspomina o koszmarze inżynieryjnym, jaki to stworzyło.

NRZ było proste. Dwa poziomy napięcia. Sygnał reprezentuje jedynkę lub zero. Twój diagram oka ma jeden otwór. Jeśli jest czysty, jesteś złoty.

PAM4 przesyła dwa bity na symbol przy użyciu czterech poziomów amplitudy. Trzy ułożone na sobie otwory na oczy. Każde oko ma mniej więcej-trzeciej wysokości odpowiadającego mu oka NRZ. Marginesy szumów zanikają. Nagle liczy się każdy milimetr śladu PCB. Każda przelotka tworzy odbicie. Każda nieciągłość impedancji pomiędzy głównym układem ASIC a klatką modułu optycznego staje się problemem dotyczącym niezawodności.

Spędziłem sześć miesięcy na debugowaniu wdrożenia 400G, w którym na określonych portach pojawiały się losowe błędy CRC. Podstawowa przyczyna? Nieco niezgodne-z-specyfikacją złącze na płycie głównej spowodowało utratę sygnału zwrotnego wystarczającą do uszkodzenia najniższego oka PAM4. Idealnie w porządku dla ruchu 100G. Katastrofalna dla 400G.

Odpowiedzią branży był obowiązkowy FEC. Nie można uruchomić optyki 400G PAM4 bez korekcji błędów w przód-surowy BER po prostu przekracza użyteczne progi. RS(544,514) dodaje około 300 nanosekund opóźnienia. Nie ogromny. Ale powiedz to klastrowi HPC obsługującemu zadania MPI, gdzie każda mikrosekunda opóźnienia końcowego wpływa na czas zakończenia zadania.

 

400g Optical Module

 

Fotonika krzemowa miała nas uratować

 

Temat fotoniki krzemowej brzmi idealnie na papierze. Wykorzystaj dziesięciolecia inwestycji w fabrykę CMOS. Zintegruj modulatory, fotodetektory i falowody w jednym chipie. Osiągnij korzyści skali, których dyskretne komponenty InP i GaAs nigdy nie byłyby w stanie osiągnąć. Zużycie energii spada o 20-30%. Koszty ostatecznie osiągają parytet, a następnie podcinają tradycyjne podejście.

Firma Intel dostarczyła ponad trzy miliony krzemowych transceiverów fotonicznych 100G. Alibaba wdrożyła krzemowe moduły fotoniczne DR4 400G w swojej sieci chmurowej począwszy od 2020 r. Technologia się sprawdza.

Ale fotonika krzemowa kryje w sobie brudną tajemnicę: źródła światła w dalszym ciągu nie mogą być krzemowe.

Potrzebujesz zewnętrznego lasera,-zwykle matrycy z fosforku indu-albo połączonego z krzemowym PIC, albo połączonego za pomocą światłowodu. Integracja hybrydowa zwiększa złożoność produkcji. Plony cierpią. Obiecana przez wszystkich przewaga kosztowa jest wypychana przez kolejne pokolenie.

Wśród firm zajmujących się fotoniką krzemową dla 400G znajdują się bardzo mądrzy ludzie, którzy podejmują bardzo drogie zakłady. Łączna wartość przejęć firm Luxtera i Acacia przez Cisco wyniosła 3,26 miliarda dolarów. To nie są pieniądze z budżetu na badania i rozwój. To strategiczna inwestycja infrastrukturalna.

Dane dotyczące udziału w rynku opowiadają bardziej skomplikowaną historię. Według LightCounting, pomimo wieloletniego szumu, krzemowe moduły fotoniczne nadal stanowią niecałe 10% wszystkich dostaw o przepustowości 400 G. Tradycyjne transceivery oparte na EML- dominują w aplikacjach DR4 i FR4. Transformacja technologiczna przebiega wolniej, niż sugerowały komunikaty prasowe.

 

Co arkusze specyfikacji ukrywają na temat zasięgu

 

Konwencja nazewnictwa IEEE dla optyki 400G wydaje się pomocna, dopóki nie spróbujesz faktycznie kupić modułów.

400G-SR8: 100 metrów przez światłowód wielomodowy. Osiem równoległych pasów przy 850 nm. Nadaje się do połączeń w-rackie. Straszne w czymkolwiek innym.

400G-DR4: 500 metrów przez światłowód jednomodowy-. Cztery równoległe ścieżki przy 1310 nm. Koń pociągowy dla większości połączeń wzajemnych w centrach danych.

400G-FR4: 2 kilometry, tryb pojedynczy-, długości fal CWDM multipleksowane na jedną parę włókien. Wykorzystuje drogie lasery modulowane zewnętrznie.

400G-LR4: 10 kilometrów. Ten sam schemat długości fal co FR4, ale ze wzmocnieniem optycznym w celu zwiększenia zasięgu.

Dość proste. Tyle że producenci stale posługują się tymi oznaczeniami szybko i luźno.

Widziałem moduły „kompatybilne z DR4”, które w warunkach laboratoryjnych osiągały zasięg 500 metrów i zawodziły na 300 metrów przy rzeczywistej instalacji światłowodowej, która charakteryzowała się nieco podwyższonymi stratami na złączu. Specyfikacja mówi o zasięgu 500 metrów i budżecie łącza 7 dB. Matematyka sprawdza się doskonale, zakładając, że wszędzie są nieskazitelne połączenia. Rzeczywistość obejmuje brudne złącza, niedoskonałe spawy i przebiegi włókien, których droga przez sufit przebiega nieco dłużej, niż pokazano na rysunkach zarządzania kablami.

Zasięg FR4 wynoszący 2 km wydaje się wystarczający, dopóki nie połączysz budynków na terenie kampusu i nie odkryjesz, że Twoja ścieżka światłowodowa ma długość 2,3 km. Teraz potrzebujesz modułów LR4 za trzykrotną cenę, albo wykażesz się kreatywnością w zakresie wzmocnienia, albo pogodzisz się z tym, że to łącze w rzeczywistości nie będzie działać.

 

Decyzja DR4 kontra FR4

 

To faktycznie ma znaczenie w przypadku prawdziwych wdrożeń i nikt nie wyjaśnia tego dobrze.

DR4 wykorzystuje cztery równoległe włókna do transmisji i cztery do odbioru. W sumie osiem włókien. Złącze MPO-12 z czterema niewykorzystanymi pozycjami. Maksymalny zasięg 500 metrów. Pobór mocy zazwyczaj 8-10 watów. Koszt modułu wynosi około 60% równoważnego FR4.

FR4 wykorzystuje multipleksowanie z podziałem długości fali, aby umieścić wszystkie cztery ścieżki w jednej parze włókien. Podwójne złącze LC. Maksymalny zasięg 2 km. Pobór mocy zazwyczaj 10-12 watów. Ceny premium, ponieważ lasery EML nie są tanie.

Topologia światłowodu determinuje wszystko.

Centrum danych Greenfield z określonym przez Ciebie okablowaniem strukturalnym? Światłowód równoległy ma sens. Poprowadź kable magistralne MPO między rzędami. Używaj DR4 wszędzie. Niższy koszt optyki rekompensuje dodatkowy światłowód.

Środowisko zdegradowane z istniejącą fabryką włókien duplex? FR4 albo ciągniesz nowy kabel.

Środowisko mieszane z kilkoma równoległymi ciągami i pewnymi starszymi instalacjami typu duplex? Witamy w koszmarze kompatybilności. Otrzymasz oba typy modułów, różne style złączy i co najmniej jedną szafkę, w której ktoś użył niewłaściwego kabla krosowego i spędził cztery godziny na rozwiązywaniu problemów z alertami „brak łącza”.

 

Pytanie o przełamanie

 

Moduł 400G-DR4 zawiera cztery linie 100G. Każda ścieżka działa niezależnie w warstwie optycznej. Umożliwia to-oddzielne połączenie jednego portu przełącznika 400G z czterema oddzielnymi urządzeniami 100G przy użyciu zespołu światłowodu oddzielonego.

Ekonomia brzmi przekonująco. Jeden port 400G. Cztery serwery 100G. Nie ma potrzeby stosowania dodatkowych portów przełącznika.

Rzeczywistość jest bardziej skomplikowana.

Przełącznikowe układy ASIC nie zawsze obsługują dowolne konfiguracje breakoutów. Niektóre platformy wymagają specjalnego oprogramowania sprzętowego. Inne pozwalają na przerwanie tylko w niektórych grupach portów. Kilka implementuje przełamanie sprzętu, ale stos oprogramowania nie udostępnia opcji konfiguracji.

Co gorsza: kable odłączające powodują koszmary wsparcia. Czy problem dotyczy modułu 400G, zespołu rozdzielającego, czy jednego z czterech portów urządzenia 100G? Rozwiązywanie problemów wymaga zamiany kabli, niezależnego testowania każdej nogi i modlenia się, czy problem jest powtarzalny.

Widziałem, jak organizacje standaryzują wszędzie natywną sieć 100G, szczególnie w celu uniknięcia złożoności związanej z przerwami. Optyka jest droższa. Cierpi gęstość portów przełącznika. Ale prostota obsługi zwycięża.

 

400g Optical Module

 

Rzeczywistość zużycia energii

 

Każdy arkusz danych modułu 400G zawiera wykaz zużycia energii. Liczby są technicznie dokładne i praktycznie bezużyteczne.

QSFP-DD DR4 może mieć typową moc 8,5 W. To moduł pobierany z szyny 3,3 V przełącznika w normalnych warunkach pracy. Nie obejmuje dodatkowej mocy zużywanej przez przełącznik ASIC podczas obsługi ośmiu linii 50G PAM4. Nie uwzględnia to kosztów ogólnych zarządzania ciepłem-mocniejszych wentylatorów, dodatkowego przepływu powietrza i być może dodatkowego chłodzenia.

Przy 32 portach na przełącznik różnica między modułami 8-watowymi i 12-watowymi wynosi 128 watów. Nie jest to trywialne, jeśli planujesz dystrybucję zasilania dla całego rzędu szaf.

Przejście z 100G na 400G nie powoduje czterokrotnego wzrostu zużycia energii na port-Pomaga w tym wzrost wydajności wynikający z integracji i ulepszeń DSP. Ale łączna moc na przełącznik całkowicie wzrosła. Centra danych, które planowały infrastrukturę elektryczną i chłodniczą o gęstości około 100 G, odkrywają ograniczenia wydajności podczas modernizacji do 400 G przy pełnej obsadzie.

 

Zgodność nie jest binarna

 

Sprzedawcy uwielbiają twierdzić, że są „kompatybilne ze wszystkimi głównymi platformami przełączników”. To stwierdzenie jest technicznie możliwe do obrony i w praktyce wprowadzające w błąd.

Zgodność modułu optycznego zależy nie tylko od dopasowania fizycznego i sygnalizacji elektrycznej. Protokoły DOM (Digital Optical Monitoring) różnią się w zależności od dostawcy. Implementacje CMIS (Specyfikacja wspólnego interfejsu zarządzania) mają wystarczającą elastyczność, aby dwie „zgodne” implementacje mogły nie współpracować w sposób czysty. Niektóre przełączniki sprawdzają kody identyfikacyjne dostawcy i całkowicie odmawiają zapalenia nierozpoznanych modułów.

Szara strefa „kompatybilnej” optyki 400G eksplodowała właśnie dlatego, że markowe-moduły kosztują 3-5 razy więcej niż zamienniki innych firm. Niektóre z tych alternatyw działają bez zarzutu. Inne powodują subtelne problemy, które ujawniają się dopiero przy określonych wzorach ruchu lub po tygodniach pracy.

Osobiście przetestowałem-moduły 400G DR4 innych firm, które pomyślnie przeszły każdy pomiar zgodności w laboratorium, a następnie powodowały zgłaszanie niemożliwych do naprawienia błędów FEC przy 2% ruchu pod obciążeniem produkcyjnym. Temperatura wewnątrz modułu podczas długotrwałej-pracy z dużą przepustowością przekroczyła granicę, jaką mogą wytrzymać elementy optyczne. Moduł zadziałał. Dopóki tak się nie stało.

 

Co 800G oznacza dla 400G

 

Przejście na 800G już trwa. Hiperskalowerzy wdrażają dziś technologię 800G. Reszta branży dołączy w ciągu 18–24 miesięcy.

Nie powoduje to przestarzałości technologii 400G-moduły będą dostarczane przez lata-ale zmienia to ekonomikę.

Sieć 800G wykorzystuje osiem linii 100G zamiast ośmiu linii 50G w sieci 400G. Ta sama modulacja PAM4, wyższa szybkość transmisji symboli na linię. Fizyka staje się trudniejsza. Koperty termiczne przesuwają się w stronę 20-25 watów na moduł. Przewaga cieplna OSFP staje się bardziej istotna przy tych poziomach mocy.

Co ważniejsze, moduły 800G można przełamać do podwójnych konfiguracji 400G. Jeden moduł 800G-2xDR4 zapewnia dwa niezależne łącza 400G. W środowiskach o mieszanych wymaganiach 400G i 800G ta funkcja podziału upraszcza zarządzanie zapasami.

Operatorzy centrów danych, z którymi rozmawiam, przeważnie trzymają się 400G w przypadku łączności typu „leaf{1}}spine”, oceniając 800G w przypadku połączeń klastrów GPU, gdzie gęstość przepustowości ma największe znaczenie. Zadania szkoleniowe związane ze sztuczną inteligencją i obejmujące wszystkie-do-wszystkich wzorców komunikacji rzeczywiście obciążają łącza 400G w sposób, jakiego nigdy nie wywierał tradycyjny ruch na północy-południu.

 

Horyzont optyki w-pakowanym pakiecie

 

Wszyscy w branży wiedzą, że nadchodzi CPO. Transceivery optyczne zintegrowane bezpośrednio z przełącznikami ASIC. Żadnych modułów wtykowych. Zużycie energii spada z 15 pikodżuli na bit do około 5, potencjalnie poniżej 1 pikodżuli w miarę dojrzewania technologii.

NVIDIA ogłosiła plany CPO dla sprzętu na rok 2025/2026. Meta i Microsoft zademonstrowały prototypy. OIF standaryzuje interfejsy.

Pytanie nie brzmi, czy CPO się wydarzy. Ważne jest, czy dzieje się to wystarczająco szybko, aby mieć znaczenie dla bieżącego cyklu planowania.

Mój odczyt: w większości wdrożeń dominuje wymienna optyka co najmniej do 2028 roku. CPO może pojawić się wcześniej w niestandardowych kompilacjach hiperskalera. Elastyczność operacyjna-modułów z możliwością wymiany podczas pracy-możliwość wymiany uszkodzonej optyki bez wyłączania przełącznika-ma ogromne znaczenie w środowiskach pozbawionych wszędzie redundancji N+1.

Już dziś zaplanuj podłączane sieci 400G i 800G. Budżet na ocenę CPO za trzy lata. Nie pozwól, aby slajdy z planami działania dostawców przyspieszały terminy, których rzeczywistość produkcyjna nie jest w stanie obsłużyć.

 

Praktyczne wskazówki, które naprawdę pomagają

 

W przypadku nowych wersji: standaryzacja na platformie DR4 z równoległą infrastrukturą światłowodową. Oszczędności w porównaniu ze związkiem FR4 w tysiącach modułów. Zaplanuj zasilanie i chłodzenie na 10 watów na moduł, nawet jeśli specyfikacje obiecują 8.

W przypadku modernizacji: obsesyjnie kontroluj istniejącą fabrykę włókien. Znaj rzeczywistą zmierzoną stratę w każdym segmencie. Odkryj naruszenia limitu DR4 na dystansie 400 metrów, zanim dotrze Twój sprzęt optyczny.

W przypadku klastrów AI: 800G jest już właściwą odpowiedzią. Wymagania dotyczące przepustowości uzasadniają premię. Nie rezygnuj-o połowę z szybkości 400G, jeśli Twoje obciążenia przerosną ją w ciągu 18 miesięcy.

Dla każdego: przed wdrożeniem zbiorczym dokładnie przetestuj-optykę innych firm. Oszczędności są realne. Podobnie niepowodzenia. Zanim zainwestujesz pieniądze w zapasy, sprawdź poprawność na konkretnych platformach przełączających przy realistycznym obciążeniu.

Technologia działa. Nie bez powodu w 2024 r. dostarczono dwadzieścia milionów modułów 400G i 800G. Jednak przejście z sieci 100G wymaga zwrócenia uwagi na szczegóły, które wygodnie pomija się w specyfikacjach i materiałach marketingowych. Fizyka nie dba o harmonogram wdrożenia.

 

Wyślij zapytanie