|
Kasyk
Het belangrijkste product van Dijkmat is Kasyk,
zoekmachinesoftware, door Dijkmat ontwikkeld, beschikbaar onder de
GNU Public License. Dijkmat kan deze software
voor u installeren op uw internetserver. U kunt ook een licentie nemen op
de software, ook al is deze open source: door de licentie krijgt u recht op
directe ondersteuning door Dijkmat.
Meer informatie over Kasyk:
Kasyk software
Kasyk documentatie
Een beschrijving van de functionaliteit van Kasyk
Kasyk is een verzameling computerprogramma's met als eenvoudigste taakomschrijving
dat het zoekmachinesoftware is.
Het eerste programma dat men van Kasyk moet gebruiken, is het indexeerprogramma
waarmee een informatiebron (zoals email, een website, een verzameling documenten
of een database) kan worden geïndexeerd (van een index worden voorzien).
Nadat de informatiebron is geïndexeerd, kan men via een zoekprogramma
zoeken in de gegevens die zijn geïndexeerd. Dit is niet verschillend van
de meeste zoekprogramma's zoals deze in de wereld beschikbaar zijn.
Er zijn echter een aantal aspecten aan Kasyk die het uniek maken ten opzichte
van vergelijkbare programma's:
- XML-ondersteuning
Kasyk kan alleen maar informatie in het XML-formaat indexeren.
Nu kan dit als een beperking worden opgevat. Feit is echter dat XML
(eXtensible Markup Language) zich de afgelopen jaren ontwikkeld heeft als
de "lingua franca" van informatiestromen. En XML is de
"moedertaal" van Kasyk, waardoor het gemakkelijk kan worden gekoppeld
aan elke informatiestroom die al uit XML bestaat, of die gemakkelijk in XML kan
worden omgezet. Voor veel voorkomende soorten informatie (zoals email, websites,
.PDF en .DOC bestanden) worden conversieprogramma's bijgeleverd met Kasyk.
- Unicode-ondersteuning
Unicode, de opvolger van ASCII, is een internationale standaard van schrifttekens
en symbolen (letters, cijfers, leestekens, in het algemeen gesteld: karakters).
Bijvoorbeeld om ze in een computerbestand op te slaan of op het beeldscherm weer te geven.
ASCII is destijds ontwikkeld in de Verenigde Staten: omdat men in het Engels
weinig gebruik maakt van letters met accenten, is het niet mogelijk om een
karakter als ö op te slaan in een computerbestand dat gecodeerd is in ASCII.
Omdat dat buiten de VS een probleem is, zijn er in de zeventiger en tachtiger
jaren een aantal min of meer lokale "dialecten" van ASCII ontstaan,
waardoor men de speciale karakters uit die buurt wél in een computerbestand kon
opslaan. In de negentiger jaren is men begonnen met Unicode, met als doel om
alle mogelijke karakters van alle mogelijke talen in een computerbestand op te
kunnen slaan. Doordat Kasyk Unicode gebruikt als interne codering voor informatie,
is het in staat om informatie in alle wereldtalen doorzoekbaar te maken.
Inmiddels zijn er verschillende coderingen, standaarden om Unicode-karakters
op te slaan. Kasyk ondersteunt die verschillende standaarden.
- Spelfouten toegestaan
Doordat Kasyk informatie op een unieke manier indexeert, kan men ook de
geïndexeerde informatie doorzoeken waarbij het programma tolerant is op
spelfouten. Hierdoor kan men "Mattijsen" vinden als er op
"Matthijssen" wordt gezocht. Dit kan nuttig zijn als de zoekopdracht
spelfouten bevat. Maar dit is minstens even nuttig als de broninformatie
spelfouten bevat (bijvoorbeeld als een bestand het resultaat is van het niet
geheel foutloze scannen van een papieren document).
- Geen versimpeling van de informatie
Kasyk gebruikt geen versimpeling om geïndexeerde informatie op te slaan.
Hierdoor kan er ook gezocht worden op veel voorkomende woorden, woorden die door
andere zoekmachines vaak verwijderd worden (zogenaamde stopwoorden). Hierdoor
kan men met Kasyk wél "to be or not to be" in de verzamelde
werken van Shakespeare vinden, terwijl andere zoekprogramma's dat niet kunnen
omdat deze zoekopdracht geheel uit stopwoorden bestaat.
- Previews
In het resultaat van een zoekopdracht, wordt tevens het stuk van het document
getoond waarin de gevraagde woorden zijn gevonden. Hierdoor kan een gebruiker
gemakkelijker besluiten of de gevonden tekst inderdaad is waar men naar zoekt.
- Beperken van zoekopdrachten
Door het aangeven van bepaalde randvoorwaarden in een zoekopdracht, kan de
zoekopdracht gemakkelijk beperkt worden tot bijvoorbeeld een tijdsperiode (kijk
alleen in de documenten van 2002) of een niveau van informatietoegang (kijk alleen
in de documenten waar ik toegang toe heb). Het bepalen van wat er mogelijk is
als randvoorwaarde, ligt geheel in de handen van de gebruiker van de
Kasyk-software.
- Gebruik van velden en gewichten
Van elk soort tekst (veld) in een document dat met Kasyk is geïndexeerd, kan
bij de zoekopdracht worden aangegeven hoe belangrijk men dat soort tekst (veld)
vindt. Zo kan men aangeven dat de titel van een document twee keer zo
belangrijk (gewicht 200) is als de rest van de tekst (gewicht 100) en dat de
namen van producten in een database niet belangrijk zijn (gewicht 0).
Hierdoor zal een woord dat men zoekt een hogere "waardering" krijgen
als het wordt gevonden in de titel van een document. Maar deze mogelijkheid kan
ook worden gebruikt om als filter te dienen: zoek bijvoorbeeld alleen maar in
productbeschrijvingen (gewicht 100), maar niet in de namen of productcodes van
producten in een database van producten (gewicht 0).
De Kasyk-programmatuur is beschikbaar via de
Kasyk-website (http://www.kasyk.org).
|