Náš klient má hlavní síť s několika vzdálenými pobočkami, které veškerý jejich provoz směrují přes ni. Před přibližně šesti měsíci jsme nahradili naše L2 Metro Ethernet za L3 MPLS VPN (oba od CenturyLink). Veškeré zařízení zůstalo stejné. Jedinou velkou změnou je, že jsme nastavili BGP pro řízení směrování mezi našimi lokalitami.
Od té doby řešíme problémy spojené s Active Directory z systémů na vzdálených lokalitách (řadiče domén jsou umístěny na hlavní lokalitě). Některé aplikace závislé na AD se buď zamknou nebo vyprší timeout. Nakonec jsem dokázal vysledovat, že zámky způsobuje LDAP provoz přes TCP port 389. Kdykoliv je potřeba přenést větší množství dat (zejména něco nazývané Schema Cache update, což je cca 3,5MB), data se úplně nepřenesou a TCP spojení zavěsí, dokud nedojde k timeoutu na úrovni aplikace.
Další izolací tohoto problému jsem zjistil, že se týká nejen LDAP provozu, ale jakéhokoliv provozu přes TCP port 389. Testování přes HTTP nebo iperf na TCP 389 přináší stejné výsledky. Dokonce jsem zapojil nový server, spustil BGP a připojil ho přímo na router od CenturyLink (Adtran 5660) na naší hlavní lokalitě. Testy iperf přímo na zařízení reprodukují problém.
Nedávno jsem zjistil, že selhání je korelováno s šířkou pásma. Naše vzdálené lokality mají zpět 50Mb na hlavní lokalitu. Když se rychlost TCP portu 389 blíží 40Mb, spojení se pravděpodobně zhorší za méně než 1 sekundu. Přitom zpomalení provozu umožní spojení udržovat déle a déle. Například při 38Mbit přenáší přibližně 30 sekund, při 30Mbit zhruba 180 sekund, při 25Mbit asi 600 sekund, atd. Spojení stále zamrzne, jen vydrží déle. To nám alespoň poskytlo dočasné řešení - omezil jsem TCP 389 provoz na našem hlavním routeru na 20Mbit.
Důležité informace: 1) Problém se nevyskytuje při provozu přímo mezi vzdálenými lokalitami, pouze směrem na hlavní lokalitu. 2) Pokud přesuneme provoz z MPLS okruhu na záložní okruh (VPN přes 4G LTE), problém zmizí. 3) Provoz na ostatních TCP portech, které jsem testoval, je bez problémů (80, 388, 390, 636, 443, 8080, atd., atd.).
Myslím, že jsem provedl veškerou svou due diligence a mám dost informací, abych to předal CenturyLink. Měl jsem s nimi tiket asi týden, pracoval jsem s třemi různými techniky a všichni mi říkali, že nevidí žádné problémy. Jeden z nich “udělal opravu v shapingu WAN rozhraní” a restartoval jejich router, ale bez úspěchu. Mám ještě něco, na co bych se měl u nás dívat, nebo to už vypadá na problém poskytovatele? Děkuji za jakékoliv vedení nebo radu.
AKTUALIZACE: Nakonec se CenturyLinku podařilo problém vyřešit tím, že zakázali firewall na jejich Adtran 5660 edge routeru. Bohužel zatím nemám žádné podrobnosti o tom, co firewall přesně dělal s těmito TCP proudy.