Automatisches Best-of   Datenbankimplementierung des Lokalisationsbaums

M. Meyer

Bevölkerungsbezogenes Krebsregister Bayern, Erlangen

Einleitung

Die Topographiekodes der ICD-0 sind hierarchisch aufgebaut: Dreistelligen Hauptkategorien sind vierstellige Subkategorien untergeordnet, die im von ICD-O abgeleiteten deutschen Tumorlokalisationsschlüssel teilweise noch durch fünfstellige Kodes verfeinert werden können.

Im Lokalisationsbaum des GEKID-Manuals [1] sind diese Hierarchien in einer Baumstruktur wiedergegeben. Mit Hilfe des Lokalisationsbaums können Fragen entschieden werden, ob zwei Lokalisationen als nur ein Primärtumor zu zählen sind und welcher von zwei Topographiekodes als der spezifischere vorzuziehen ist.

Eine Baumstruktur lässt sich jedoch nicht direkt in einer relationalen Datenbankstruktur speichern. Hier ist eine geeignete Implementierung notwendig, die effiziente Abfragen für eine automatische Best-Of-Entscheidung ermöglicht.

Material und Methoden

In der relationalen Datenbank des Bevölkerungsbezogenen Krebsregisters Bayern ist eine Tabelle vorgesehen, die die Liste aller Topographiekodes mit den zugehörigen Informationen wie Klartext, Paarigkeit, Geschlechtsabhängigkeit enthält. Diese Liste wurde um eine Spalte ergänzt, die zu jedem Topographiekode die Position im Lokalisationsbaum notiert.

Da der Lokalisationsbaum 19 Hauptäste enthält, wurden zu deren Kodierung die ersten 19 Buchstaben des Alphabets verwendet. Für jeden Ast wurden alle weiteren Verzweigungen bzw. die Blätter eines Astes wiederum mit ‚A' beginnend bezeichnet. Durch Aneinanderreihung aller Kodes beginnend vom Hauptast bis zum Blatt ergeben sich eindeutige Zeichenketten, die sowohl die Position im Baum exakt wiedergeben als auch für Best-Of-Entscheidungen nutzbar sind.

Ergebnisse

Best-Of-Entscheidungen sind ebenso wie Record-Linkage-Entscheidungen einfach durch Vergleich der Baumpositionszeichenketten durchführbar: Eine Lokalisation ist spezifischer als eine zweite, wenn der Positionskode der zweiten Lokalisation Anfangsstück der ersten ist. Das Best-Of-Ergebnis ist folglich die Lokalisation, die zur längeren Positionszeichenkette gehört. Ist bei zwei Topographiekodes keiner Anfangstück des anderen, aber beide beginnen mit denselben Zeichen, dann ist der spezifischste Obergriff beider Kodes die Lokalisation, die zum gemeinsamen Anfangsstück der Positionszeichenkette gehört.

Diskussion

Die beschriebene Implementierung des Lokalisationsbaums erlaubt eine weitgehend automatisierte Best-Of-Entscheidung. Nur in wenigen Sonderfällen ist eine manuelle Nachbearbeitung notwendig.

Literatur

[1] Stefan Hentschel, Alexander Katalinic (Hrsg.): Das Manual der epidemiologischen Krebsregistrierung, Zuckschwerdt-Verlag, 2008

Martin Meyer
Bevölkerungsbezogenes Krebsregister Bayern   Registerstelle
Östliche Stadtmauerstr. 30
91054 Erlangen
Tel. 09131/85-36035
Fax 09131/85-36040
martin.meyer@ekr.med.uni-erlangen.de