Optimalizace TCP protokolu na WAN linkách

zero

Vsak sem psal L2, L4

To, ze podle Tebe L2ka NEMA vliv na zpozdeni vs windows size, tak mi vysvetli nasledujici model.situaci, kterou jsem simulovali..

Virtual Server na win 2008 R2, RAID 6ka, nasdileny nejakej adresar -> switch ProCurve 2510G-48-> switch ProCurve 2510G-48-> switch ProCurve 2510G-48-> switch ProCurve 2510G-48-> ten samej virtual, ale v jinym racku. Linky z vSwicthu byly 1Gbit Full po cele trase.

PROC dosahnu timto zapojenim jen cca 600Mbit, nez kdyz propopojim servery 5m patchordem na primo a dosahnu kolem 950Mbit? Switche byly nastaveny uplne v defaultu, bez VLAN, QoSu, RSTP apod. Rychlost na portech byla v automatice. Latence bez switchu (server-server) 950us, se switchema 1.230ms. A podotykam, ze jsou to L2+ switche...

A pokud se to takto chova v LAN, tak si nedokazu predstavit, jak to musi vypadat v nejaky WAN siti. Treba jsem nezkousel, zda na to maji switche vliv pri rekneme IPsecu ci jinym druhu tunelu.

A ano, spravnou velikosti Windows size se da problem do urcite miry eliminovat...ale, vysvetluj uzivatelum na optice, PROC kdyz maji zaplacenej nejakej psoranej premium ucet treba na RS, dostali novej pocitac za 30 tycek a stahovani jim jeden JEN 15Mbit misto 30Mbit? Reknes jim: Aaaale , mas na hovno TCP WIndows Size.. nainstaluj si TCP optimizer a oprav si to... Kazdej Te posle do prdele.

Myslis, ze treba nejakej velkej ISP, kdyz mu reknes, ze linku nevytizis na JEDNO spojeni, ale na 20 uz jo, se s tim bude nejak zaobirat? Nebude.. prijede s merakem, protlaci tam 512kovy a 1500kovy UDP framy, ty projdou na jednicku a rekne: Sorry, problem na L7 vrstve, opravte si TCP windows scaling, transportni vrstva je v poradku... a co udelas, hm?

Edit: mozna by stalo za hrich zkusit pouzit MPLS /jako akceleraci packetu/, protoze vetsina backbone siti je postavena na MPLS /ale ted varim z vody :-x/

Edit 2: kolik lidi tady takovy testy provadelo v praxi na opravdu rychlych pripojkach? Zda se mi, ze teorie je sice krasna vec, ale praxe je v tomhle bohuzel kruta..

Diky.

hapi

shit switche? jinak si to neumim vysvětlit jak by rozdíl 22% v čase udělal paseku 350Mbit když evidentně window size bylo pro ten přenos zvětšený a nebylo tedy použitý statický window size... snížení rychlosti by se tedy v případě dynamickýho window size nemělo projevit nebo aspoň ne tak moc.

Nabízí se další otázka, dělá ten samej problem i FTP přenos? Je typický že microsoft share je tupá služba a s window size moc zacházet neumí. To vidim na naší síti kdy mám k serveru 3 switche a samba jede okolo 30-40MB/s ale FTP jede 100MB/s. Proč tomu tak je? Je to snad i ve schopnostech určitý aplikace jestli dokáže odeslat tak velkej balík dat na jednou? Jestli vůbec je schopná vlastnim komunikačním modelem vycházející ze způsobu vlastní komunikace odeslat tak velkej balík dat bez potvrzení? Dokážu si představit že FTP nachrlý velký balíky dat bez problému (záleží na aplikaci FTP serveru) ale samba kouskovaným přenosem neni schopná sestavit například blok dat o velikosti 16kB bez toho aniž by nedošlo k potvrzení na aplikační vrstvě. Pak jaksi nemůže ani dojít na zvětšení windows size když samotná aplikace (ať už třeba kvůly samotný spolehlivosti samotný služby) prostě vyžaduje potvrzení na aplikační vrstvě po menších blokách. Je vůbec tohle možný? Co vy na to?

walkeer

Vsak sem psal L2, L4

To, ze podle Tebe L2ka NEMA vliv na zpozdeni vs windows size, tak mi vysvetli nasledujici model.situaci, kterou jsem simulovali..

To je nepochodpeni meho prispevku. Na zpozdeni samozrejme vliv L2 prvky maji, to jsem pro jistotu napsal v posledni vete, ale nemuzou mit zadny vliv na windows size, resp. o ni nic nevedi a primo ji nemohou ovlivnit (L2 nerozumi prenasenym datum). Kdyz to reknu trohcu jinak, tak zpomaleni TCP protokolu na L2 prvcich je chyba resp. vlastnost TCP protokolu. Na rychlost UDP by L2 prvky nemeli mit zadny vliv, zkus to schvalne zmerit na tvych serverech.

Obecne vzato, rychlost a latence jsou dve spolu nesouvisejici veliciny. Bohuzel, nektere protokoly je svazuji dohromady, jako napr. TCP.

PROC dosahnu timto zapojenim jen cca 600Mbit, nez kdyz propopojim servery 5m patchordem na primo a dosahnu kolem 950Mbit? Switche byly nastaveny uplne v defaultu, bez VLAN, QoSu, RSTP apod. Rychlost na portech byla v automatice. Latence bez switchu (server-server) 950us, se switchema 1.230ms. A podotykam, ze jsou to L2+ switche...

Ze by spatne nastavena window size? :) zkus to nastavit rucne (vypnutim dynamickeho nastavovani), melo by to pomoci. Dalsi moznost je, ze to L2+ neni ciste L2 switch a ze tam jeste neco s tema ramcema resi a zpomaluje to.

Edit: mozna by stalo za hrich zkusit pouzit MPLS /jako akceleraci packetu/, protoze vetsina backbone siti je postavena na MPLS /ale ted varim z vody :-x/

Diky.

MPLS, pokud se nepletu, je vpodstate neoc na zpusob routovani ala L2, tedy s packetama se pokud vim vubec nemanipuluje a routuji se pomoci jakychsi virtualnich L2 tunelu nebo cest. Cili, jeslti to chapu dobre, pro ty data se MPLS routery chovaji vpodstate jako L2 prvky. a jsme zase u toho sameho..

ludvik

Jednu teorii bych měl, resp dvě. Policing a flow-control. Pokud si od někoho koupím 150Mbit, jak mi to dá? Nastaví policer na ciscu. Jak se chová policer? Zahazuje přebytečné pakety. A jak se zachová TCP? Sníží window size a rychlost jde do pryč ... Flow control by se tak sice asi chovat nemělo (alespoň do určité míry), ale výsledek je dle mých zkušeností stejný - dojde k zahození paketů. No a pokud tam je těch switchů po cestě hafo, stoupá pravděpodobnost všeho ... hlavně problémů.

zero

Jednu teorii bych měl, resp dvě. Policing a flow-control. Pokud si od někoho koupím 150Mbit, jak mi to dá? Nastaví policer na ciscu. Jak se chová policer? Zahazuje přebytečné pakety. A jak se zachová TCP? Sníží window size a rychlost jde do pryč ... Flow control by se tak sice asi chovat nemělo (alespoň do určité míry), ale výsledek je dle mých zkušeností stejný - dojde k zahození paketů. No a pokud tam je těch switchů po cestě hafo, stoupá pravděpodobnost všeho ... hlavně problémů.

jsem rád,že se našel někdo, kdo moji "teorii" (v praxi odzkoušenou) potvrdí, či se k ním přikloní.

Flow control jsem psal hned na začátku -> zakázat. Nevidím jedinej důvod to mít na backbone nastavený, když jsou stejně propoje na 1 či více Gbit.

Ad policing.. naše nastavení:

bandwidth 5000000

service-policy input QoS-LM-RATE_MARK-INET-In-500Mb

service-policy output QoS-LM-RATE_MARK-INET-Out-500Mb

xxx.xxxx> traffic-profiling standard-profile show statistics port 1

+---------------------- STANDARD PROFILE TABLE --------------------+

| Port | Profile | Statistics |

+-------+---+--------------------+---------------------------------+

| 1 |1 |TP-1310 | Accepted 18619867684220 |

+-------+---+--------------------+---------------------------------+

| 1 |2 |TP-127 | Accepted 85634000 |

+-------+---+--------------------+---------------------------------+

A i když jsem si zdaleka nesáhnuli na limity, stejně upload korektní nebyl.

Hledáme dále :)

hapi

Jednu teorii bych měl, resp dvě. Policing a flow-control. Pokud si od někoho koupím 150Mbit, jak mi to dá? Nastaví policer na ciscu. Jak se chová policer? Zahazuje přebytečné pakety. A jak se zachová TCP? Sníží window size a rychlost jde do pryč ... Flow control by se tak sice asi chovat nemělo (alespoň do určité míry), ale výsledek je dle mých zkušeností stejný - dojde k zahození paketů. No a pokud tam je těch switchů po cestě hafo, stoupá pravděpodobnost všeho ... hlavně problémů.

chápu že ty switche můžou omezovat na základě RED fronty, tedy extra fronta pro ně použitá jako nejjednoduší omezení rychlosti, nicméne pokud člověk nedosahne na cca 80%, zahazování by nemělo začít.

walkeer

Jednu teorii bych měl, resp dvě. Policing a flow-control. Pokud si od někoho koupím 150Mbit, jak mi to dá? Nastaví policer na ciscu. Jak se chová policer? Zahazuje přebytečné pakety. A jak se zachová TCP? Sníží window size a rychlost jde do pryč ... Flow control by se tak sice asi chovat nemělo (alespoň do určité míry), ale výsledek je dle mých zkušeností stejný - dojde k zahození paketů. No a pokud tam je těch switchů po cestě hafo, stoupá pravděpodobnost všeho ... hlavně problémů.

Takoveho provodera nastesti nemam, moje packety mi provider nezahazuje :) ani pri plne zatezi tam zadny PL neni, kdyz nepocitam nejaky obcasny na wifinach..

zero

Jednu teorii bych měl, resp dvě. Policing a flow-control. Pokud si od někoho koupím 150Mbit, jak mi to dá? Nastaví policer na ciscu. Jak se chová policer? Zahazuje přebytečné pakety. A jak se zachová TCP? Sníží window size a rychlost jde do pryč ... Flow control by se tak sice asi chovat nemělo (alespoň do určité míry), ale výsledek je dle mých zkušeností stejný - dojde k zahození paketů. No a pokud tam je těch switchů po cestě hafo, stoupá pravděpodobnost všeho ... hlavně problémů.

Takoveho provodera nastesti nemam, moje packety mi provider nezahazuje :) ani pri plne zatezi tam zadny PL neni, kdyz nepocitam nejaky obcasny na wifinach..

a kolik odebiras?

walkeer

Jednu teorii bych měl, resp dvě. Policing a flow-control. Pokud si od někoho koupím 150Mbit, jak mi to dá? Nastaví policer na ciscu. Jak se chová policer? Zahazuje přebytečné pakety. A jak se zachová TCP? Sníží window size a rychlost jde do pryč ... Flow control by se tak sice asi chovat nemělo (alespoň do určité míry), ale výsledek je dle mých zkušeností stejný - dojde k zahození paketů. No a pokud tam je těch switchů po cestě hafo, stoupá pravděpodobnost všeho ... hlavně problémů.

Takoveho provodera nastesti nemam, moje packety mi provider nezahazuje :) ani pri plne zatezi tam zadny PL neni, kdyz nepocitam nejaky obcasny na wifinach..

a kolik odebiras?

100Mb na jednom miste, 24Mb jinde. Jestli to chapu dobre, tak se vam pri plne zatezi zvysuje PL, ze? Tomu rikam kvalitni internet panecku :) to bych asi reklamoval..

zero

100Mb na jednom miste, 24Mb jinde. Jestli to chapu dobre, tak se vam pri plne zatezi zvysuje PL, ze? Tomu rikam kvalitni internet panecku :) to bych asi reklamoval..

prosim? o zadnym PL se tu nikdo nebavi.. doporucuju si Ti precist celej tento topic jeste jednou + prilozene linky na externi dokumenty :!:

walkeer

100Mb na jednom miste, 24Mb jinde. Jestli to chapu dobre, tak se vam pri plne zatezi zvysuje PL, ze? Tomu rikam kvalitni internet panecku :) to bych asi reklamoval..

prosim? o zadnym PL se tu nikdo nebavi.. doporucuju si Ti precist celej tento topic jeste jednou + prilozene linky na externi dokumenty :!:

Hapi mluvil o RED, to je Random Early Drop, pokud se nepletu, tak to nahodne zahazuje packety, coz zpusobi snizeni TCP window a zpomaleni rychlosti. Pokud nejaky QoS prvek pouziva RED, tak IMO musi nutne dochazet k PL.

hapi

jo to jsem přesně myslel. Občas někdo red používá aniž by věděl na co to doopravdy je a nebo v dobré víře že to bude lepší. RED je navržen pro spoje které nesmí být přetížené ať už zdůvodu přetížení obecnýho (třeba koncovách prvků) a nebo z důvodu nárůstu latence při přetížení. Prostě zajistí aby spojem neteklo víc než je přípustno právě tím, že zahazuje náhodně pakety čímž vyvolá umělé snížení rychlosti datových toků. Navíc se nemusí vytvářet nějaká fronta jako u klasickýho shapingu a zpracování RED shapingu je velmi, velmi jednoduché pro jakékoliv zařízení takže i pro takovej cisco router přes kterej teče 10Gbitů může lehce zkrouhnout datovej tok a bude ho to stát minimum výkonu.

Samozřejmně pro window size je to mor ale jak jinak lehce donutit data aby spomalila?

zero

Stando, to co pises by se uplatnovalo v pripade, ze by nejaka cast linky byla "na strope". Ale pokud udelam iperfem treba plnou kapacitu a FTPkem ne? : To asi shaping nebude.....

hapi

jasně, to ne. Ale u iperfu si musíš vynutít tcp window ne? aby to jelo

zero

jasně, to ne. Ale u iperfu si musíš vynutít tcp window ne? aby to jelo

ted to testujeme s miractem..mu to jede nejlip s 16kByt/13,2ms odezva

zkus Ty 62.209.209.242

hapi

z toho webu mi to jede 15-25Mbit ale spíš pod 20Mbit. V lince mám ještě dost místo.

majklik

Pěkná diskuse.

Co může způsobit, že jedním spojením nedokážu ucpat celou konektivitu je celá řada a bylo by to na román. :-(

Tabulka velikost okna proti RTT a clkové propustnost linky je celkem jasná, ale je třeba vzít v potaz spolehlivost linky. Platí to tak jen pro zcela bezeztrátovou linku. Pokud se sem tam se vám ztrtí paket a chci TCP okno hadně nad 64 KiB, tak musí být aktivován TCP scaling a ten se volí jen na otevření spojení v SYN paketech a pak se trvale používá stejný. Vedlejší efekt tohoto je, že nemůžete měnit velikost okna za chodu zcela plynule, ale pokud ten scaling přestřelíte, tak při drobné ztrátovosti linky docílíte toho, že ji nedokážete ucpat jedním spojením (protože minimální snížení okna je o moc velký krok dolů, než kolik by stačilo k vytížení linky).

U samby není jen problém v TCP okně v linuxu, ale i vlastní CIFS protokol vkládá další režii, takže na stejné trase a HW při porovnání FTPčko by mohlo dát lepší výsledky, hlavně FTP server obvykle používá nějakou formu systémového volání sendfile() (unixy) nebo TransmitFile() (Windows), která řeší odeslání souboru v rámci jádra OS bez účasti aplikační vrstvy a ušetří se tuna času přesouváním dat po paměti (u novější samby jde použít v konfiguraci use sendfile=yes a umí to znatelně urychlit některé typy přenosů, pokud mám klienty W2K a výše). Jen u linux kernelu řady 2.6 se měnil u TCP algoritmus pro manipalici s oknem a potvrzování nejméně 3x s ohledem na sítě LFN.

Co se týče vlivu L2 prvků na zpoždění delší linky, tak je obvkyle menší, než vliv té vzdálenosti (pokud se bavíme o WAN sítích po republice). Rychlost světla v optickém kabelu není žádný zázrak (v podstatě na rádiových dobrých trasách můžete udělat lepší RTT právě s využitém rychlejšího šíření signálu). K tomu pláči, že já mán přes data carriera odezvu mnohem větší než jiný, který tam ma třeba i X L2 prvků. Někdo od Plzně může mít štestí, že sedí na přímé lince jdoucí do Prahy do NIXu (pokud měřím proti němu) a někdo u Tábora může mít smůlu, že do Prahy mu to jde J. Hradec, Jihlava, Havl. Brod, Pardubice, Kolín, Praha. Tohle už pár km navíc je. Obvkyle toto půjde nějakou SDH tchnologií, takže vliv zpoždení vlastních prvků po trase bude minimální (respektive přechod z async ethernetu do sync linku bud emít větší režii, která se vyplatí na dlouhé trase, kde se sync prvkách umoří).

Jiná věc je šmejd L2 krabice. Teorie, kolik zpoždění vloží jeden switch dělající store-forward je hezká, realita bývá krutě jiná. Ale stále se bavíme o desítkách us na jeden prvek. Třeba zmíněné HPčka Procurve 2510G, ty celkem zpomalí předávání mezi porty, pokud je nějaký jiný port ve skupině v 100 Mbps režimu, asi málo vnitřních sběrnic a problém synchronizqíc mezi nima (a starší stovková řada je ještě tragičtější, pokud je velký počet VLAN). Jistě, mohu volat po switchích typu fast-forward, ale od dob, co jsou rychlé RAMky a je ji dost, tak se to u switchů nepoužívá. Respektive Cisco to zase vytáhlo na scénu a nabízí (tuším třeba Catalyst 4900), ale to řešení není určeno nna MAN/WAN sítě. Mířeno pro datacentra, kde provozují single image clustery a snaží se tím natlačit do aplikací, kde vládne InfiniBand sítě. To znamená, kde je požadavke nejen velká přenosová rychlost, ale zároveň i minimální dopravní zpoždění (tady Ethernet může závidět, ale také je to jiná cena).

Myšlenka MPLS není přínosná do L2 sítě ohledně odezvy. MPLS na L2 síti má smysl pro řešení přenosu různých protokolů a překonání bariéry 4000 VLAN. Jako urychlovač má smysl na routované síti, kdy MPLS urychluje průchod směrovači. Ta myšlenka s Cisco CEF nebyla asi úplně správná, to se opět týká až L3 beden (a defacto u cisca je aktivní CEF/dCEF podklad pod MPLS). Popkud mám plně routovanou síť, tak MPLS mí na odezvě něcí nahoní (a to i na wifi síti na Mikrotikách).

Ano rychlé spojení na L2 síti blížící se k hranici Etherneut spolehlivě zabije flow control na L2 vrstvě (802.3x), ale tuhle prasárnu snad nikdo nepoužívá, srážka TCP s tímto obvykle nedopadne dobře. Obecně srážka se switchovaným ethernetme, kde je daná síť zahlcována nad 80% kapacity se nechová úplně dobře, ale to platí při multiaccess přístupu, když jsou jen dva, tak ty efekty nejsou tak rychlé.

Jiné důvody, proč jedním spojením si neucpu celou síť: nejedna síť, kde mají třeba koupeno 300 Mpbs, poslední míle k nim je 1 Gpbs, krása, pohoda, ale předtím má carrier pár chytřejších L2+ beden staršího data, tak proč je nevyužít, tak dál to jde jako port channel přes 3x 100 Mbps kanály a má vyřízeno i osekání konektivity na koupenou hranici. A pak záleží dost na politice těch switchů, jak rozhazují pakety do toho trunku. Dost často to dělají tak, že pakety jednoho spojení jen jednou cestou (pro LACP je to tak i přímo ve specifikaci pro Ethernet) a v reálu to pro koncáka znamená, že jedno spojení nevytíží celou linku (ale u tohoto to platí na jedno spojení a jedno, zda TCP/UDP/cokoliv).

Co se toho řízení průtoku na stanovenou hranici týče, tak je víc technik než jen dropování paketů. Třeba přehazování pořadí paketů, také povede ke snížení rychlosti. Někdy to některé technologie proužívaly pro lepší vytěžování infroastruktuy, řazením různých paketu k sobě, což vede k přeházení pořadí také, ale snad už to časot nepotkáte (u O2 jsme třeba zaznamenal). Jiná možnost, která je v některých bedna implmenetována, tak pro TCP zdržují ACK pakety a také vás tím patřičně přibrzdí (tohle ale nepotkáte u data carriera).

Jinka hezká příčina a celkem zákeřná, proč nedokážu ucpat linku naplno jedním spojením (nebo i vícero, ale tam to není tak patrné) je srážka dvou řízení toků. Jedno u data carriera a druhé u vás. Obecně se to skládá z kroku měření nad nějakým časovým kvantem a pak se v dalším uplatní nějaká politika řízení (často ne hned v následujícíh, ale ob jedno). Tohle se děje u carriera a taktéž u Vás, pokud dopravní zpoždění mezí místem, kde to dělá nadřazená síť a kdy to děláte vy bude v nějakém násobku toho časového kroku řízení toků a pokud se rychlost přiblíží stropu, tak se může stát, že dojde k dvojitému podobnému "regulačnímu zásahu" na stejná data. Efekt je, že pokud linkou se snažíte protlačit jen jedno TCP spojení, tak to nedokáže vymačkat víc jak jednu 1/2, 1/4, .. teoretického maxima. Tohle ale dost závisí i na algoritmu, co daná TCP implemntace používá. Pokud ucpu linku vícero spojeníma, tak to tak vidět není (nebo smolně je nepochopitelně bržděno jedno spojení a ostatní jedou OK). Neprojevuje se to tam, kde probíhá aktivní řizení po celé trase na vícero prvkách za sebou a ne jen diskrétně na jednom místě (což defacto není řízení toků, ale jen vstupní kondiciování, či jak tomu říká teoreie). Také to nenastane, pokud u sebe řídíte toky tka, aby nedošlo k zahlcení celé kapacity (nedojde na působneí nadřazeného řízení limitu toku). O kolik je potřeba podstřelit závisí na kapacitě linky mezi body řízení u sebe a carrirera. Defacot jde o stjený případ srážky různých oken, tkao tunelování TCP v TCP, srážky TCP s L2 flow control, ....

A takto by šlo mastit možné případy dál a dál, na což není už vhodná ranní doba. :-(

hapi

to je všechno sice hezký jenomže tohle bych pochopil kdyby se rychlost snížila o pár procent a ne o většinu obzvlášť když se na hranici linky jednim spojením nikdy nevyškrábeš například natestu dáš 20-30Mbit a linka je 200Mbit. To mi nejde do hlavy.

S MPLS s tebou souhlasim že je to spíš jako vlan a smysl nejspíš bude mít na routingu ale nesouhlasim s nějakym urychlení nebo spíš snížení latence na mikrotikách. Co jsem tu zkoušel i když to nebylo zrovna korektní, tak největší snížení latence proběhlo při vypnutí conn trackingu ale to bylo testovaný na dvou zařízeních tedy že jedno přibalilo MPLS a druhý zase odebralo a kdyby to šlo skrz třetí prvek furt skrz mpls, asi by to vypadalo lépe.

majklik

Nemá smyls MPLS mezi dvěma sousedníma routery na výkon. Máš režii navíc na routeru kde paket vstupuje do MPLS sítě a kde ji opouští. Urychlení nastává na routerech které dostanou MPLS paket a tlačí ho dál jako MPLS.

Samozřejmě vypnutí trackingu spojení se projeví víc, je to dost žrout výkonu. Přemýšlím, že při tom pokusu jen se dvěma routery se možná vůbec MPLS nepoužije v ROSu. Pokud přijde na to, že jde jen o předání paketu mezi dvěma sousendíma routery, tak MPLS značky do paketu vůbec nepoužije (pokud se konfiguruje jako klasický IP akcelerátor a ne kombinace MPLS/VPLS).

Dobře, ten pokus s upload TCP děláš s vlivem celé své sítě a data carriera nebo odpojíš svoji síť, místo ni připojíš jednu obludku, která se snaží přímo tlačit/sosat FTP. Zkus to a porovnej výsledky a pak se dá začít špekulovat o prvním kroku zda má/nemá na to vliv moje infrastruktura.

zero

V první řadě díky Majklíkovi za super příspěvěk!

Já tohle vše de facto chápu, ale nejde mi do hlavy jedna jediná věc... proč je tak velkej rozdíl mezi testem iperf, FTP, HTTP?

« Předchozí stránka Další stránka »