DE TAXONOMIE

De noodzaak tot een steeds betere en snellere toegang tot content leidt tot een groeiende aandacht voor methoden voor inhoudelijke ontsluiting ervan. Het ontwerpen en bouwen van taxonomieën biedt voor deze problematiek een goede oplossing.

Taxonomieën


Inhoudsopgave
1. Algemeen
2. De onderdelen van een taxonomie
3. Het ontwerpen van een taxonomie
4. Business case voor een taxonomie
5. Conclusies
6. Literatuur

1. Algemeen
Een taxonomie is een structuur die het mogelijk maakt om content over personen, organisaties, gebeurtenissen en dingen te clusteren in (hiërarchische) groepen om ze gemakkelijk te identificeren, te bestuderen en terug te vinden.
Taxonomieën zijn, samen met het definiëren van metadata en integratie, de meest kritische componenten van enterprise content management systemen ( ECM ) en enterprise information portals ( EIP ).

Taxonomieën vinden hun oorsprong in de behoefte van de mens om zaken te categoriseren om overzicht te kunnen houden en inzicht te verkrijgen. Dit categoriseren gebeurde tot voor kort met behulp van classificatieschema's. Deze zijn echter veel te star van structuur om toe te passen in organisaties waar de content snel groeit en/of verandert. Het grotere aantal vrijheidsgraden van een taxonomie zorgt voor flexibeler ontsluiten.

De beste manier om taxonomieën te ontwerpen is volgens de facetbenadering, cq. facetanalyse. In de bovenstaande omschrijving van een taxonomie is al een facetindeling opgenomen, nl. personen, organisaties, gebeurtenissen en dingen. Deze vier begrippen sluiten elkaar volledig uit! Dit is ook meteen het belangrijkste criterium voor het kiezen van een indeling: het principe van uitsluiting. Bij een verdere indeling per facet moet geprobeerd worden zoveel mogelijk dit uitsluitingsprincipe te blijven hanteren. Dat is de belangrijkste garantie voor een goede taxonomie.
Een goede toets voor het testen van de juistheid van een taxonomie is dat het toevoegen van een facet zonder problemen mogelijk moet zijn. De toets is behalve voor de linguïstische indelingen ook toepasbaar voor zowel de productclassificaties en/of materialenclassificaties.
Illustratief voor de waarde van facetanalyse zijn de volgende opmerkingen:

" … 30 years of teaching did not reveal any subject which did not lend itself to facet analysis."
"From its success, we must assume that the future of intellectual [content] retrieval lies in the first place in adequate facet analysis".
"… facet analysis does appear to be the most important tool to our disposal for the analysis of subjects [and will be] increasingly important in the future."
(Foskett, 2000)

Maar ook de facetbenadering heeft een evolutie doorgemaakt.
De originele uitgangspunten van de facetclassificatie hadden namelijk als nadeel dat het onmogelijk was om relaties te definiëren tussen bovenliggende en onderliggende begrippen binnen hetzelfde facet (zoals met de broader en narrower terms van de thesaurus). Ook konden laterale relaties niet vastgelegd worden, terwijl deze voor het genereren van ideeën toch van wezenlijk belang zijn (de Bono,1972 en de Bono,1999).
Voor het oplossen van deze type problemen wordt gebruik gemaakt van de kennis en ervaringen die met de ontologie-benadering opgedaan wordt.

2. De onderdelen van een taxonomie
De klassieke onderdelen van classificatiesystemen blijven onverkort noodzakelijk voor taxonomieën. Deze onderdelen zijn de schema's, de notaties, de index(en) en de organisatie.
De schema's zijn de direct zichtbare logische structuur van de taxonomie. Deze logische structuur kan gepresenteerd worden als een boom met vertakkingen of als een aantal kolommen, waarin iedere kolom een facet vertegenwoordigt.
De notatie in de vorm van indrukwekkende cijfer-letter combinaties zien we tegenwoordig niet meer terug. Zij worden ook algemeen als te gebruikersonvriendelijk beschouwd.
Notaties worden nog wel gebruikt om verzamelingen fysiek te organiseren, bijvoorbeeld als plaatsingssytemen. Het meest concrete voorbeeld is de plaatsing van boeken in een bibliotheek, waarbij elk boek een signatuur krijgt , die meestal op de rug van het boek terug te vinden is. Deze signatuur geeft meestal een aanduiding van het hoofdonderwerp van het boek. Gelijksoortig zijn de aanduidingen op schappen in magazijnen.
De indexen hebben de rol van ingangselementen voor het zoekproces. Afhankelijk van de manier van ontsluiten worden deze indexen volledig automatisch gegenereerd of (deels) via tussenkomst van indexeerders. Met name de inzet van deze laatste is van groot belang als er nieuwe begrippen (concepten) in een vakgebied ontstaan, als er nieuwe synoniemen opduiken en als de inhoud van begrippen verandert of wanneer er begrippen overbodig worden. Allemaal redenen om niet volledig te vertrouwen op computer-based indexing.
En daarmee komen we op het vierde onderdeel: de organisatie. De praktijk wijst uit dat de continuïteit van de taxonomie en daarmee de toegang tot de content gevaar loopt als de organisatie in de vorm van onderhoud en beheer niet geregeld is. Het aanstellen van een taxonomist is wezenlijk!

3. Het ontwerpen van een taxonomie
Bij het ontwerpen en bouwen van een taxonomie zijn dezelfde fasen van belang als bij het ontwerpen en bouwen van elk ander informatiesysteem: de strategie wordt bepaald, het ontwerp wordt gemaakt, de bouw vindt plaats en de gebouwde taxonomie wordt getest en geïmplementeerd.
Het ontwerpproces bestaat uit de volgende stappen:
1 Verzamel kandidaat-termen en hun varianten
2 Bepaal criteria voor de keuze van de voorkeurstermen
3 Selecteer voorkeurstermen
4 Ontwikkel de facet hiërarchie(en)
5 Schrijf het ontwerp, inclusief functionele specificaties
6 Voer een pakketselectie uit (of bouw de applicatie)
7 Implementeer de taxonomie.

Voor het verzamelen van kandidaat-termen en de voorkomende varianten is de geijkte aanpak het opsporen van reeds bestaande (vak-)woordenlijsten, thesauri, taxonomieen, classificatieschema's, ed. en het raadplegen van gebruikers en experts. Met name dit laatste is een kritieke succesfactor.
Voor de stappen 3 en 4 geldt dat deze in een aantal iteratieve cycli worden uitgevoerd.
Altijd in herhaald overleg met de gebruikers en experts komen de volgende vragen meerdere keren aan de orde. Welk synoniem verdient de voorkeur? Hoe gaan we de voorkeurstermen clusteren? Moet een ruimer of juist een enger begrip gekozen worden als voorkeursterm, of toch beide? Welke (semantische) relaties bestaan er tussen termen en moeten deze vastgelegd worden?

Bij het vastleggen van de termen moet ook aan een aantal taalkundige aspecten aandacht besteed worden om een consistente structuur te krijgen. Enkele aspecten zijn:
- de grammaticale vorm (gebruiken we de werkwoordsvorm of het voltooid deelwoord of corresponderend zelfstandig naamwoord?)
- de spelling
- keuze maken voor óf enkelvoud- óf meervoudsvorm
- gebruik van afkortingen en acroniemen.
Als er consensus is over de facethiërarchie kunnen de stappen 5 tm. 7 uitgevoerd worden.

Nadere informatie over met name 'taxonomy tools' is op aanvraag beschikbaar via het onderstaande e-mailadres.

4. Business case voor een taxonomie
Ook voor een taxonomie is een business case te maken. Deze verschilt in principe niet van elke andere business case, met dien verstande dat er natuurlijk altijd sprake is van een deelsysteem binnen de ontwikkeling van een volledig ECM systeem. De te beantwoorden vragen zijn ook hier: wat is de ROI, wat zijn kwantificeerbare voordelen, wat zijn de risico's, wat zijn de afhankelijkheden, wat zijn de andere opties.
Om de bestedingen te rechtvaardigen zijn twee aspecten van belang: de taxonomie creëert toegevoegde waarde en genereert besparingen. De toegevoegde waarde wordt bepaald door aan te geven hoe de kwaliteit van het product (de opbrengst van de zoekopdrachten) en hoe de productiviteit van de storage and retrieval functie verbeteren. De besparingen bestaan uit de reductie van tijd en kosten van het zoeken en terugvinden van de content en de besparingen in personeel voor het indexeren.

Enkele suggesties:
Gebruik maken van de verworvenheden uit de taalanalyse technologie (automatisch genereren van samenvattingen, automatisch categoriseren van teksten)
Mogelijk maken van zoekacties op meerdere databases
Snelle verwerking van grote volumes content
Uitbreiden van de rol van taxonomist en indexeerder.

5. Conclusies
Besef dat gebruikers op verschillende manieren zoeken en er dus meerdere manieren van zoekmogelijkheden ingebouwd moeten worden, dat er dus meerdere zoekfuncties nodig zijn.
Ondernemingsbrede taxonomieën moeten een globaal karakter hebben.
Taxonomieën werken het best op goed gedefinieerde domeinen.
Taxonomieën moeten gebruiker-driven zijn en de terminologie van de gebruikers bevatten.
Er komt langzaam een groei naar het gebruik van ontologieen.

6. Literatuur

de Bono,1972
Lateraal denken in het bedrijfsleven / Edward de Bono. – Amsterdam : Paris, 1972

de Bono, 1999
Eenvoud / Edward de Bono. – Amsterdam : Nieuwezijds, 1999

Foskett, 2000
The future of faceted classification / A.C. Foskett.
In: The Future of classification / ed. Rita Marcella and Arthur Maltby. - Aldershot : Gower, 2000. - p.69-80



Voor meer informatie : info@celt.nl
Vorige pagina