Telldus live

Moderator: Telldus

stefan.persson
Posts: 353
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by stefan.persson » Thu Jan 18, 2018 11:08 am

Tänkte beskriva lite vad som hände med Telldus Live!, och hur vi jobbar på att förhindra att det händer igen.

I aktuell version av vår servermjukvara har vi upptäckt en bugg som gör att tråden som rensar upp döda/försvunna anslutningar kan hamna i ett felläge. Detta i sig gör inte så mycket direkt, men det innebär att antalet tillgängliga sockets och öppna filer långsamt fylls på. Detta i kombination med ständigt ökande antal användare ledde till att en av våra servrar natten till den 25:e stötte i en övre gräns. Serverprogrammet stängde då ner och startade om. Precis som planerat började då anslutna TellStick och TelldusCenter att flytta över till andra servrar. Tyvärr var även dessa servrar nära sina tak, och den ökade belastningen som fördelades ut ledde till slut till att alla servrarna startade om, fick ta emot nästan alla anslutna klienter, slog i taket och startade om igen. Detta ledde också till att andra funktioner, som hemsida och databas, fick problem.

Detta hände vid ytterligare ett par tillfällen, men inte för alla servrarna på en gång, så effekterna har inte varit riktigt lika illa.

Dessa tak och gränser är justerade sedan en tid tillbaka, och vi startar för tillfället om servermjukvaran enligt ett rullande schema för att försäkra oss om att alla gamla anslutningar tas bort. Under tiden letar vi för fullt efter buggen (som eventuellt är flera) med hjälp av en hel rad spårningsfunktioner, och senast idag började vi rulla ut en ny uppgradering som vi hoppas ska lösa detta.

Att en enda server går ner slår olika. Med senaste firmware i TellStick Net, eller senaste versionen av TelldusCenter återansluter man till en annan server inom ett par minuter. Denna fördröjning är medveten, för att undvika en DoS när många ansluter på en gång. I de flesta fall återansluter även tidigare versioner, men ibland kan de hamna i ett tillstånd då de är omedvetna om att de har tappat kontakten utan fortsätter som om allt var bra.

En stabil Telldus Live!-tjänst har givetvis högst prioritet för oss, och vi jobbar ständigt för att förbättra denna.
Stefan Persson
Software
Telldus Technologies

tronde
Posts: 600
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by tronde » Thu Jan 18, 2018 11:08 am

OK, dette forklarer hva som skjedde den 25., men hva med den lange nedetiden flere av oss opplevde i perioden 7. - 10. mars? ( http://www.telldus.com/forum/viewtopic.php?f=1&t=1930 ) Da var det ingen tegn til manglede server, og jeg fikk i alle fall lest inn sensordata.


Jeg har noen lamper som styres av mottaker med kodehjul. Tre av dem står i samme rom som Tellstick Net, og har samme kode. I tiden etter nyttår har jeg flere ganger opplevd at at ingen av dem slår seg av på angitt tidspunkt som er 01:06. Det er ingen logikk i at ingen av dem slår seg av, så jeg antar at det ikke har blitt sendt ut kommando. Likefullt viser Live! at de skal være avslått. Lamper som skal slås av noen minutter før 01:00, og 02:00 blir slått av som forventet. Er ca. 01:00 et "magisk" tidspunkt i deres logikk?

nickolo
Posts: 52
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by nickolo » Thu Jan 18, 2018 11:08 am

Och så klabbar inloggning till Telldus Live igen !

SUCK

stefan.persson
Posts: 353
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by stefan.persson » Thu Jan 18, 2018 11:08 am

Webbsidan hade nertid några minuter igår runt kvart i sju, vilket drabbade inloggningen. Live!-servrarna fortsatte dock köra som vanligt. Beklagar detta.
Stefan Persson
Software
Telldus Technologies

tronde
Posts: 600
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by tronde » Thu Jan 18, 2018 11:08 am

Har Live vært nede i dag ca. 1940? Jeg har tre forskjellige brytere som skulle aktiveres da. Live viser at de er avslått, slik de faktisk er. Da kan det ikke ha blitt sendt ut noe.

stefan.persson
Posts: 353
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by stefan.persson » Thu Jan 18, 2018 11:08 am

Ingen nertid eller problem igår. Kan du/kunde du styra manuellt?
Stefan Persson
Software
Telldus Technologies

tronde
Posts: 600
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by tronde » Thu Jan 18, 2018 11:08 am

[quote="stefan.persson"]Ingen nertid eller problem igår. Kan du/kunde du styra manuellt?[/quote

Jeg registrerte bare at de bryterne ikke var styrt, og at Live viste at de ikke var slått på. Brytere som skulle slås på ca. 2000 ble styrt korrekt, og ingenproblemer ble registrert senere. Ettersom Live viste at de ikke var slått på selv om de skulle vær det i hht. scheduler, antar jeg at noe var galt på serversiden.

stefan.persson
Posts: 353
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by stefan.persson » Thu Jan 18, 2018 11:08 am

Har undersökt loggarna runt denna tidpunkt, men har inte kunnat hitta något problem. Vi ska se till att logga misslyckanden bättre: http://developer.telldus.com/ticket/209
Stefan Persson
Software
Telldus Technologies

tronde
Posts: 600
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by tronde » Thu Jan 18, 2018 11:08 am

Det er "hick-ups" på serveren.
I går, og i dag, er det en bryter som ikke har slått seg på som planlagt i scheduler. Live viser at den ikke er på. Kan styres manuelt fra live.

Tidspunkt 20 min. før solnedgang (ca. 20:03 - 20:05).

stefan.persson
Posts: 353
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by stefan.persson » Thu Jan 18, 2018 11:08 am

Hmm, vi får undersöka detta närmare. Schemaläggningen borde ju försöka igen om den inte lyckats första gången.
Stefan Persson
Software
Telldus Technologies

tronde
Posts: 600
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by tronde » Thu Jan 18, 2018 11:08 am

stefan.persson wrote:Hmm, vi får undersöka detta närmare. Schemaläggningen borde ju försöka igen om den inte lyckats första gången.
Samme bryter feilet i dag også. Tid for påslag skulle vært 20:08. Live melder at den er av.

Den har alltid slått seg av som forutsatt etter at jeg har slått den på manuelt.

stefan.persson
Posts: 353
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by stefan.persson » Thu Jan 18, 2018 11:08 am

Och andra scheman som kör ungefär samtidigt fungerar? Kan du posta en supportticket om detta, http://telldus.com/support/index ?
Stefan Persson
Software
Telldus Technologies

tronde
Posts: 600
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by tronde » Thu Jan 18, 2018 11:08 am

stefan.persson wrote:Och andra scheman som kör ungefär samtidigt fungerar?

Ja, disse tre dagene er det kun den ene som har sviktet ved påslag. Denne bryteren er satt opp til Number of retries: 10
Retry interval: 6, og 3 repeats.

Jeg har seks andre brytere som styres på av solnedgang. En settes på 3 min etter den problematiske, og en 5 min etter. Disse har fungert fint. De fire resterende bryterne tennes suksessivt i løpet av 50 minutter.

Den som har vært feil disse tre dagene, er den første som tennes tidsmessig etter solnedgangstid. Kan det være en sammenheng der?

stefan.persson wrote:Kan du posta en supportticket om detta, http://telldus.com/support/index ?
Utført

stefan.persson
Posts: 353
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by stefan.persson » Thu Jan 18, 2018 11:08 am

Vid genomgång av loggarna har vi hittat en väldig peak just runt denna tid, väldigt många schemaläggningar skulle köras samtidigt. Inte vid någon annan tidpunkt är vi i närheten av samma antal. Vi har nu lagt på mer minne på våra servrar som en kortsiktig lösning, och får se om det räcker för tillfället. Samtidigt har vi börjat koda om schemaläggaren för att den ska dra mindre resurser. Vi hoppas att detta ska lösa problemet.
Stefan Persson
Software
Telldus Technologies

tronde
Posts: 600
Joined: Thu Jan 18, 2018 11:08 am

Re: Telldus live

Post by tronde » Thu Jan 18, 2018 11:08 am

stefan.persson wrote:Vid genomgång av loggarna har vi hittat en väldig peak just runt denna tid, väldigt många schemaläggningar skulle köras samtidigt. Inte vid någon annan tidpunkt är vi i närheten av samma antal. Vi har nu lagt på mer minne på våra servrar som en kortsiktig lösning, och får se om det räcker för tillfället. Samtidigt har vi börjat koda om schemaläggaren för att den ska dra mindre resurser. Vi hoppas att detta ska lösa problemet.
I kveld har alt fungert som forventet.

Post Reply