Voordat de geautomatiseerde veredeling kan beginnen, analyseert BaseControl de aangeleverde data-bestanden. Om te zien of deze geautomatiseerd kunnen worden veredeld, hoe de software moet worden afgesteld, en om een inschatting te maken van benodigde tijd en kosten. Op deze data-analyse baseren wij onze offerte.
De data moeten worden 'ingeladen' in de verdelings-software. Dat kan in veel gevallen door de data te importeren. De bronbestanden moeten zich daartoe wel lenen. Een bestand met komma- of tab-gescheiden velden is daar een goed voorbeeld van. Ook kan uit EXCEL worden geïmporteerd.
Wanneer de naamgegevens en/of adresgegevens bijvoorbeeld in Word (of een ander tekstverwerkingsbestand) staan, moet de software de gegevens inlezen. Deze zet dan aan de hand van interpretatie van 'platte tekst' de gegevens alvast zoveel mogelijk in de (mogelijk) juiste velden. Daarna kan de eigenlijke veredeling beginnen.
Alle gegevens worden zoveel mogelijk gesplitst en van elkaar gescheiden in aparte velden (zie hieronder). Zij worden daartoe eerst grondig geanalyseerd in hun context en onderlinge relaties. Zo wordt bijvoorbeeld 'dhr. prof. mr. J.G. (Johan) van Dam MBA' verdeeld over zeven velden: geslacht (= man), titels voor (= prof. mr.), voorletters (= J.G.), tussenvoegsel (= van), achternaam (= Dam), titels na (= MBA) en roepnaam (= Johan). Een dergelijke splitsing vindt ook plaats bij alle adres- en telecommunicatie-gegevens.
Alle gegevens worden gescreend op kennelijke schrijffouten (bijvoorbeeld dubbele spaties, punten en komma's op onlogische plekken, harde returns, tabs en andere leestekens) en daarop gecorrigeerd. Gegevens van Nederlandse adressen worden gevalideerd aan de hand van de Postcodetabel. Waar nodig worden adressen, huisnummers, postcodes en woonplaatsen verbeterd. Indien een adres niet met de Postcodetabel kan worden gematched, wordt dat apart in het retourbestand vermeld.
Alle gegevens worden volgens een aantal algemeen geldende afspraken uniform (eenduidig) gemaakt. Een aantal velden begint bijvoorbeeld altijd met een hoofdletter (achternaam, roepnaam, straatnaam, plaatsnaam, etc), een aantal juist nooit (geslacht, titels, voorvoegsels etc). Titels worden volgens een eenduidige schrijfwijze in de juiste volgorde gezet en tussen voorletters komt een punt. Telecommunicatiegegevens worden volgens eenduidige notatie vermeld, rekening houdend met het aantal cijfers van het kengetal.
Alle gegevens worden waar nodig aangevuld. Zo wordt het geslacht, als dat niet expliciet wordt vermeld, indien mogelijk vastgesteld aan de hand van de roepnaam. Aan de hand van de Postcodetabel worden ontbrekende data in de (Nederlandse) adresgegevens aangevuld.
Desgewenst kunnen mogelijk dubbele relaties als zodanig worden aangemerkt.
BaseControl realiseert zich dat data-verdeling een complexe materie is. Altijd zullen er twijfelgevallen blijven bestaan en soms kan de keuze niet aan een computer worden overgelaten. Het betreft immers uw kostbare relatiegegevens. Als 'final touch' vindt er dan ook altijd tot slot een handmatige controle plaats. Daarbij worden wij geholpen door de analyse-software, want die detecteert precies op welke punten een menselijke keuze nodig is. Die maken wij dan en bij twijfel: raadplegen wij u!
Wilt u meer weten over de mogelijkheden voor het opschonen van uw data? Neem dan contact met ons op via 06 - 33 05 50 80 of via ons contactformulier.
persoonsgegevens | organisatiegegevens | adresgegevens | telecomgegevens |
geslacht | organisatie | bezoekadres | telefoon 1 |
adelijke titel | onderdeel | bezoekadres nr | telefoon 2 |
adellijk predicaat | locatieaanduiding | bezoekadres nr toevoegsel | fax |
titels(s) voor | functie | bezoekadres postcode | |
voorletter(s) | functionaris | bezoekadres plaats | www |
tussenvoegsel(s) | bezoekadres land | ||
achternaam | postadres | ||
roepnaam | postadres nr | ||
titel(s) na | postadres nr toevoegsel | ||
postadres postcode | |||
postadres | |||
postadres land | |||