Proof of concept

In 2002 was ik betrokken bij een project om een Business Intelligence systeem voor een Short Message Service (SMS) centrale te ontwikkelen.

De oplossing laadde een kopie van de logboek records van de SMS centrale in een Oracle database en gebruikte die gegevens om rapportages voor de marketing afdeling van de telecom provider te maken (bijvoorbeeld om patronen te vinden in de demografie - op welke tijd van de dag sturen de meeste tieners SMS'jes naar hun vrienden). Het systeem kon ook gebruikt worden door de helpdesk van de provider om vragen te beantwoorden van eindgebruikers (bijvoorbeeld wanneer een SMS-bericht is verzonden, maar niet geleverd, waarom is het niet geleverd en waar is het bericht nu?).

Het project was al een paar maanden bezig en BI-specialisten werkten aan gegevens modellen, rapportages, user interfaces en dergelijke toen ik werd gevraagd te kijken naar de infrastructurele aspecten. Eén van de eerste vragen die ik stelde was hoeveel logrecords van de SMS centrale in de Oracle database moeten worden ingeladen en verwerkt. Het antwoord was schokkend:

10.000 records per seconde.

Het systeem moest 10.000 records per seconde invoegen in een Oracle-database, iedere seconde weer en dat 24 uur per dag. Natuurlijk was mijn volgende vraag hoe ze zouden gaan doen. Het antwoord was ook prachtig:

Door de logrecords gewoon te inserten in Oracletabellen.

Het project had zich nooit gerealiseerd dat dit een hele uitdaging was. Bij het zoeken naar informatie over de maximum snelheid waarmee records konden worden inserted in een Oracle-database vond ik dat een maximale snelheid die op dat moment gemeld was ongeveer 1000 inserts per seconde was, ofwel 10 keer te langzaam voor ons.

Ik stelde voor om een proof of concept uit te voeren om erachter te komen hoe snel we records konden invoegen in onze database setup.

Het resultaat: 500 records per seconde.

Een beetje teleurstellend en een duidelijke bedreiging voor de voortgang van het project. We konden het probleem deels oplossen door het toepassen van een aantal mooie trucs op de Oracle database en uiteindelijk bereikten we met dezelfde proof of concept setup een acceptabele 5000 inserts per seconde (ik denk een wereldrecord in die tijd).

Het punt is dat het project blijkbaar een architect nodig had om ze te wijzen op de valkuil in de technische oplossing en dat een proof of concept nodig was om uit te vinden hoe de oplossing zich zou gedragen.

Zo'n proof of concept had natuurlijk moeten worden gedaan aan het begin van het project. Ik heb goede ervaringen met het gebruik van een proof of concept in projecten. Een proof of concept kan worden gebruikt om de meest uitdagende onderdelen van uw oplossing te testen, al aan de begin van het project.

Dit is wat onnatuurlijk om te doen. De meeste mensen beginnen liever met het deel van het project waarmee zij zich het meest vertrouwd voelen. Het meer uitdagende deel komt vaak pas in een later stadium. Maar deze uitdagende onderdelen moeten toch worden aangepakt en een tegenvaller kan leiden tot een vertraging in het project of zelfs het einde van het project.

Een proof of concept toont technische onmogelijkheden aan op een moment dat nog niet al te veel geld is besteed en toont het projectteam en de klant dat het hoogste techniche projectrisico is gemanaged.

This entry was posted on Sunday 14 March 2010

Een consistente back-up? Nergens voor nodig.

Over het algemeen wordt veel aandacht besteed aan het maken van een consistente back-up. Specifieke back-up tools en -agents worden geconfigureerd die ervoor zorgen dat databases naar disk worden geflushed zodat ze consistent worden geback-upt.

Uiteraard is dit heel belangrijk. Inconsistente databases kunnen leiden tot het niet goed opstarten van de database na een restore. Een voorbeeld hiervan is een indexbestand dat niet overeenkomt met de onderliggende tabellen. Ook moeten database transacties correct worden afgehandeld voordat een back-up wordt gemaakt om te voorkomen dat de database wel goed start na een restore, maar dat de applicatie die de database gebruikt niet meer consistent werkt. Een voorbeeld is een inkooporder die vermeldt dat een product is binnengekomen, maar waarvan een tegenboeking in de administratie ontbreekt.

De vraag is of het nuttig is om op een hoger niveau consistentie in back-ups af te dwingen. Ik denk dat dit veel moeite kost (als het überhaupt al mogelijk is), maar dat het weinig oplevert.

Systemen staan tegenwoordig zelden alleen. Ze maken meestal deel uit van een keten van interne en externe systemen. Inkooporders komen binnen door orderinvoer in een SAP systeem, maar kunnen ook binnenkomen via resellers via webservices of via een verkoop site via Internet.

Deze systemen zijn gekoppeld en het ligt voor de hand om ze integraal te back-uppen. In de praktijk is dit bijna onmogelijk. Om een integrale back-up mogelijk te maken moeten alle systemen in een consistente staat worden gebracht. Niet alleen intern, maar ook onderling. Dit kan eigenlijk alleen als alle gekoppelde systemen worden gestopt. Niet alleen is dit meestal niet haalbaar (een internet pagina kan niet worden afgesloten voor een back-up actie), het is bovendien tijdrovend. Als één van de systemen in de keten niet kan worden gestopt omdat een langlopende transactie bezig is, moeten alle andere systemen hierop wachten voordat een back-up kan worden gemaakt. En dan heb ik het nog niet over ketens die over meerdere partijen lopen. Als er transacties tussen verschillende bedrijven of instellingen lopen, kunnen die bedrijven en instellingen moeilijk allemaal worden stilgelegd als over de hele keten een consistente back-up moet worden gemaakt.

Misschien is het belangrijk eerst vast te stellen waarvoor een back-up eigenlijk wordt gebruikt bij grote systemen (ik heb het nu niet over het restoren van een verloren file op een user directory). Een back-up wordt gebruikt om systemen te restoren die op geen andere manier te repareren zijn. Dat betekent dat een keuze om een restore uit te voeren een grote business impact heeft. Een restore moet dan ook met grote zorg worden uitgevoerd. Van belang hierbij is het om een back-up te hebben die consistent is binnen één systeem, zodat bovengenoemde problemen van transacties en technische database integriteit niet optreden.

Meestal zijn back-ups één of meerdere dagen oud. Als na een restore van een back-up het systeem klakkeloos zou worden opgestart dan treden er verschijnselen op die grote gevolgen kunnen hebben. Bijvoorbeeld: Als op het moment van back-up een bericht van een business partners binnen kwam, maar de bevestiging nog in de queue stond, dan zal na een restore de besvestiging van dit oude bericht nogmaals naar de business partner worden verstuurd. Stel dat een betalingsachterstand van een klant is betaald, maar dat op de back-up de situatie staat dat hij nog niet heeft betaald. Als het system wordt restored, dan zal ineens een aanmaning worden geprint.

Dit soort voorbeelden geeft aan dat een restore altijd een delicaat proces is dat met grote zorg moet worden uitgevoerd, vooral waar het een keten betreft. Het is daarom niet nodig om een consistente back-up over een hele set applicaties te hebben: bij een restore gaat het toch wel fout.

Een consistente database en consistentie binnen de applicatie zelf is daarom genoeg.

This entry was posted on Monday 01 March 2010