Vietnes uzticamības inženierija - kurss 65 000 rub. no Slurm, apmācība, datums 2024. gada 1. janvāris.
Literārs Mistrojums / / November 29, 2023
CILVĒKIEM
SRE inženieris var būt gan operāciju inženieris, gan izstrādātājs. Intensīvā kursa laikā jūs daudz praktizēsiet, un iegūtās prasmes un zināšanas var tikt pielāgotas un ieviestas jebkurā jomā.
BIZNESS
SRE atrisina tās pašas problēmas kā DevOps: tas palielina jaunu funkciju izlaišanas ātrumu un uzlabo procesus komandā. Taču SRE galvenais uzdevums ir nodrošināt pakalpojumu stabilitāti un uzticamību, izslēdzot situācijas, kad lietotāji sūdzas par kļūmēm, bet inženieriem ir zaļie grafiki.
Mēs būvējam:
Mūsu apmācību vietne sastāv no vairākiem mikropakalpojumiem. Tas apkopo datus par izrādēm, cenām un pieejamajām sēdvietām no visiem kinoteātriem, rāda filmu paziņojumus, ļauj izvēlēties kinoteātri, izrādi, zāli un vietu, rezervēt un apmaksāt biļetes.
Mēs formulēsim SLO, SLI, SLA rādītājus šai vietnei, izstrādāsim arhitektūru un infrastruktūru, kas tos atbalstīs, izveidosim uzraudzību un brīdināšanu.
Izstrādātāju kļūdas, infrastruktūras kļūmes, apmeklētāju pieplūdums un DoS uzbrukumi pasliktina SLO.
Mēs analizējam stabilitāti, kļūdu budžetu, testēšanas praksi, pārtraukumu un darbības slodzes pārvaldību.
Notika nelaime. Maksājumu apstrādes pakalpojums nedarbojas. Kā rīkoties, lai pēc iespējas īsākā laikā atjaunotu funkcionalitāti?
Mēs organizējam avārijas seku likvidēšanas komandas darbu: iesaistot kolēģus, informējot ieinteresētās puses, nosakot prioritātes. Mēs trenējamies strādāt zem spiediena ārkārtīgi ierobežotā laika apstākļos.
Apskatīsim pieeju vietnei no SRE viedokļa. Mēs analizējam incidentus (rašanās cēloņus, likvidēšanas gaitu). Mēs pieņemam lēmumus, lai tos novērstu tālāk: uzlabojam uzraudzību, mainām arhitektūru, pieeju attīstībai un darbībai un regulējumu. Mēs automatizējam procesus.
— Mums ir desmitiem uzbūvētu infrastruktūru un simtiem rakstītu CI/CD cauruļvadu,
— sertificēts Kubernetes administrators,
— vairāku kursu par Kubernetes un DevOps autors,
— Regulārs lektors Krievijas un starptautiskās IT konferencēs.
1. DIENA: AMA sākuma sesija
Mēs apspriedīsim kursa mērķus un uzdevumus, kā arī pastāstīsim, kas ir SRE, un sadalīsim to komandās.
2 teorētisko tēmu atklāšana:
1. tēma: Uzraudzība
- Kāpēc ir nepieciešama uzraudzība?
- Procentiles
- Brīdinājums
- Novērojamība
2. tēma: SRE teorija
- SLO, SLI, SLA
- Izturība
- Budžeta kļūda
2. DIENA: prakses un gadījumu analīze
Prakse: Pamata informācijas paneļa izveide un nepieciešamo brīdinājumu iestatīšana
Prakse: SLO/SLI + brīdinājumu pievienošana informācijas panelim
Prakse: Pirmā sistēmas ielāde
1. gadījuma risinājums: pakārtotā atkarība.
Lielā sistēmā ir daudz savstarpēji atkarīgu pakalpojumu, un tie ne vienmēr darbojas vienlīdz labi. Tas ir īpaši kaitinoši, ja jūsu pakalpojums ir kārtībā, bet blakus esošais, no kura jūs esat atkarīgs, periodiski pazūd.
Izglītības projekts atradīsies tieši šādos apstākļos, un jūs nodrošināsiet, ka tas joprojām ražo kvalitāti visaugstākajā iespējamajā līmenī.
3. DIENA: AMA sesija, atbildes uz jautājumiem
Tiek atvērta piekļuve 2. teorētiskajam modulim:
Vides un arhitektūras problēmu risināšana
Otrais modulis ir veidots, lai atrisinātu divus gadījumus: augšupējās atkarības un arhitektūras problēmas. Runātāji runās par incidentu pārvaldību, noteikumiem ugunsdzēsējiem un darbu ar post mortem, kā arī sniegs veidnes, kuras varat izmantot savā komandā.
3. tēma: incidentu vadība
- Elastības inženierija
- Kā veidojas ugunsdzēsēju brigāde
- Cik efektīva ir jūsu komanda šajā incidentā?
- 7 noteikumi incidenta vadītājam
- 5 noteikumi ugunsdzēsējam
- HiPPO – vislabāk apmaksātās personas viedoklis. Komunikācijas vadītājs
T4. tēma: Varrum rīki un brīdinājumu pārvaldība.
Citu uzņēmumu labākā prakse incidentu vadības organizēšanā.
4. DIENA: prakses un gadījumu analīze
2. gadījuma risinājums: augšupējā atkarība.
Tā ir viena lieta, ja esat atkarīgs no pakalpojuma ar zemu SLO. Tas ir cits jautājums, ja jūsu pakalpojums ir tāds pats citām sistēmas daļām. Tas notiek, ja vērtēšanas kritēriji nav saskaņoti: piemēram, jūs sekundes laikā atbildat uz pieprasījumu un uzskatāt to par veiksmīgu, bet atkarīgais dienests nogaida tikai 500 Maskavas laika un aiziet ar kļūdu.
Gadījumā pārrunāsim metriku saskaņošanas nozīmi un mācīsimies paskatīties uz kvalitāti ar klienta acīm.
3. gadījuma risinājums: problēmas ar datu bāzi.
Datubāze var būt arī problēmu avots. Piemēram, ja neuzraugāt replikācijas releju, replika būs novecojusi un lietojumprogramma atgriezīs vecos datus. Turklāt šādu gadījumu atkļūdošana ir īpaši sarežģīta: tagad dati ir nekonsekventi, bet pēc dažām sekundēm tie vairs nav konsekventi, un nav skaidrs, kāds ir problēmas cēlonis.
Izmantojot lietu, jūs sajutīsiet visas atkļūdošanas sāpes un uzzināsiet, kā novērst šādas problēmas.
Prakse: Mēs rakstām pēcnāves ziņojumu par iepriekšējo gadījumu un apspriežam to ar runātājiem.
5. DIENA: AMA sesija, atbildes uz jautājumiem
AMA sesija un atbildes uz jautājumiem par iepriekšējām tēmām.
Tiek atvērta piekļuve 3. teorētiskajam modulim:
Satiksmes vairogi un kanārijputniņi
Trešajā modulī mēs analizēsim gadījumu, kas veltīts problēmai ar vidi (būs detalizēta veselības analīze Pārbaude), kā arī soli pa solim analizēsim, kā ieviest SRE uzņēmumos un uzzināsim to uzņēmumu pieredzi, kuros strādā runātāji. intensīva
5. tēma: Veselības pārbaude
- Veselības pārbaude Kubernetes
- Vai mūsu pakalpojums joprojām ir dzīvs?
- Exec zondes
- InitialDelaySeconds
- Sekundārā veselības osta
- Blakusvāģu veselības serveris
- Bezgalvas zonde
- Aparatūras zonde
6. tēma: Izvietošanas metodes
7. tēma: SRE projekta ieviešana
Lielie uzņēmumi bieži veido atsevišķu SRE komandu, kas atbalsta citu nodaļu pakalpojumus. Taču ne katrs pakalpojums ir gatavs atbalsta saņemšanai. Mēs jums pateiksim, kādām prasībām tai jāatbilst. Runātāji dalīsies arī savā pieredzē, kā viņi ieviesuši SRE un kādas kļūdas pieļāvuši.
6. DIENA: prakses un gadījumu analīze
4. gadījuma risinājums: ir problēmas ar vidi, nav iespējams nopirkt biļetes.
Healthcheck uzdevums ir atklāt bojātu pakalpojumu un bloķēt trafiku uz to. Un, ja jūs domājat, ka šim nolūkam pietiek ar pieprasījumu pakalpojumam ar root un saņemt atbildi, tad jūs jūs maldāties: pat ja pakalpojums reaģē, tas negarantē tā darbību - var rasties problēmas vide.
Šajā gadījumā jūs uzzināsit, kā konfigurēt pareizo Healthcheck un neļaut satiksmei nokļūt tur, kur to nevar apstrādāt.
Apkopojot