Homepage
Werk
Kasyk
Links

Kasyk

Het belangrijkste product van Dijkmat is Kasyk, zoekmachinesoftware, door Dijkmat ontwikkeld, beschikbaar onder de GNU Public License. Dijkmat kan deze software voor u installeren op uw internetserver. U kunt ook een licentie nemen op de software, ook al is deze open source: door de licentie krijgt u recht op directe ondersteuning door Dijkmat.

Meer informatie over Kasyk:
Kasyk software
Kasyk documentatie

Een beschrijving van de functionaliteit van Kasyk
Kasyk is een verzameling computerprogramma's met als eenvoudigste taakomschrijving dat het zoekmachinesoftware is.

Het eerste programma dat men van Kasyk moet gebruiken, is het indexeerprogramma waarmee een informatiebron (zoals email, een website, een verzameling documenten of een database) kan worden geïndexeerd (van een index worden voorzien). Nadat de informatiebron is geïndexeerd, kan men via een zoekprogramma zoeken in de gegevens die zijn geïndexeerd. Dit is niet verschillend van de meeste zoekprogramma's zoals deze in de wereld beschikbaar zijn.

Er zijn echter een aantal aspecten aan Kasyk die het uniek maken ten opzichte van vergelijkbare programma's:

  • XML-ondersteuning
    Kasyk kan alleen maar informatie in het XML-formaat indexeren. Nu kan dit als een beperking worden opgevat. Feit is echter dat XML (eXtensible Markup Language) zich de afgelopen jaren ontwikkeld heeft als de "lingua franca" van informatiestromen. En XML is de "moedertaal" van Kasyk, waardoor het gemakkelijk kan worden gekoppeld aan elke informatiestroom die al uit XML bestaat, of die gemakkelijk in XML kan worden omgezet. Voor veel voorkomende soorten informatie (zoals email, websites, .PDF en .DOC bestanden) worden conversieprogramma's bijgeleverd met Kasyk.

  • Unicode-ondersteuning
    Unicode, de opvolger van ASCII, is een internationale standaard van schrifttekens en symbolen (letters, cijfers, leestekens, in het algemeen gesteld: karakters). Bijvoorbeeld om ze in een computerbestand op te slaan of op het beeldscherm weer te geven. ASCII is destijds ontwikkeld in de Verenigde Staten: omdat men in het Engels weinig gebruik maakt van letters met accenten, is het niet mogelijk om een karakter als ö op te slaan in een computerbestand dat gecodeerd is in ASCII. Omdat dat buiten de VS een probleem is, zijn er in de zeventiger en tachtiger jaren een aantal min of meer lokale "dialecten" van ASCII ontstaan, waardoor men de speciale karakters uit die buurt wl in een computerbestand kon opslaan. In de negentiger jaren is men begonnen met Unicode, met als doel om alle mogelijke karakters van alle mogelijke talen in een computerbestand op te kunnen slaan. Doordat Kasyk Unicode gebruikt als interne codering voor informatie, is het in staat om informatie in alle wereldtalen doorzoekbaar te maken. Inmiddels zijn er verschillende coderingen, standaarden om Unicode-karakters op te slaan. Kasyk ondersteunt die verschillende standaarden.

  • Spelfouten toegestaan
    Doordat Kasyk informatie op een unieke manier indexeert, kan men ook de geïndexeerde informatie doorzoeken waarbij het programma tolerant is op spelfouten. Hierdoor kan men "Mattijsen" vinden als er op "Matthijssen" wordt gezocht. Dit kan nuttig zijn als de zoekopdracht spelfouten bevat. Maar dit is minstens even nuttig als de broninformatie spelfouten bevat (bijvoorbeeld als een bestand het resultaat is van het niet geheel foutloze scannen van een papieren document).

  • Geen versimpeling van de informatie
    Kasyk gebruikt geen versimpeling om geïndexeerde informatie op te slaan. Hierdoor kan er ook gezocht worden op veel voorkomende woorden, woorden die door andere zoekmachines vaak verwijderd worden (zogenaamde stopwoorden). Hierdoor kan men met Kasyk wél "to be or not to be" in de verzamelde werken van Shakespeare vinden, terwijl andere zoekprogramma's dat niet kunnen omdat deze zoekopdracht geheel uit stopwoorden bestaat.

  • Previews
    In het resultaat van een zoekopdracht, wordt tevens het stuk van het document getoond waarin de gevraagde woorden zijn gevonden. Hierdoor kan een gebruiker gemakkelijker besluiten of de gevonden tekst inderdaad is waar men naar zoekt.

  • Beperken van zoekopdrachten
    Door het aangeven van bepaalde randvoorwaarden in een zoekopdracht, kan de zoekopdracht gemakkelijk beperkt worden tot bijvoorbeeld een tijdsperiode (kijk alleen in de documenten van 2002) of een niveau van informatietoegang (kijk alleen in de documenten waar ik toegang toe heb). Het bepalen van wat er mogelijk is als randvoorwaarde, ligt geheel in de handen van de gebruiker van de Kasyk-software.

  • Gebruik van velden en gewichten
    Van elk soort tekst (veld) in een document dat met Kasyk is geïndexeerd, kan bij de zoekopdracht worden aangegeven hoe belangrijk men dat soort tekst (veld) vindt. Zo kan men aangeven dat de titel van een document twee keer zo belangrijk (gewicht 200) is als de rest van de tekst (gewicht 100) en dat de namen van producten in een database niet belangrijk zijn (gewicht 0). Hierdoor zal een woord dat men zoekt een hogere "waardering" krijgen als het wordt gevonden in de titel van een document. Maar deze mogelijkheid kan ook worden gebruikt om als filter te dienen: zoek bijvoorbeeld alleen maar in productbeschrijvingen (gewicht 100), maar niet in de namen of productcodes van producten in een database van producten (gewicht 0).


De Kasyk-programmatuur is beschikbaar via de Kasyk-website (http://www.kasyk.org).

Copyright © 2003-2006 Dijkmat BV
Graag opmerkingen en suggesties. We ontvangen graag bericht als u fouten vindt.
Stuur ons een bericht: Dijkmat BV