12.09.2023, 10:58
Moin,
ich habe folgendes Problem: Ich sitze an einer Tabelle mit medizinischen Daten die so aufgebaut ist, dass für jeden Fall eine Zeile angelegt ist (etwa 10.000 Fälle) mit weit über 100 Spalten mit verschiedensten Daten und Werten zum jeweiligen Fall.
Ich habe nun die Aufgabe diese Tabelle nach Fällen durchzusuchen, die doppelt vorkommen bzw. angelegt wurden. Dabei ergibt sich nun das Problem, dass die Daten und Werte sich bei ein und dem gleichen Fall teilweise erheblich unterscheiden können oder bei einem vom beiden viele Werte fehlen. Das kommt dadurch wenn der gleiche Patient von einer anderen Klinik (mit anderer Patienten-ID) zu einem späteren Zeitpunkt erneuert fälschlicherweise eingetragen wurde (nun mit anderen Daten und Werten).
Bestimmte Daten wie Alter, Wohnort, Ethnie usw. sind aber oft bei doppelten Fällen gleich (nur selten sind diese anders weil z.B. umgezogen oder ein Jahr später eingegeben) und die beste Möglichkeit die doppelten Fälle zu erkennen.
Ich hatte nun angefangen einfach verschiedene Filter (Sortierungen) dieser Daten in unterschiedlicher Priorisierung anzuwenden in der Hoffnung, dass die doppelten Fälle dann in der Tabelle direkt untereinander stehen. Bei 10.000 Zeilen und über 100 Spalten viel zu mühselige Arbeit. Außerdem gibt es dann doch zu viele Unterschiede darin welche Spalten bei den Doppelten denn nun übereinstimmen.
Vielleicht kennt hier ja jemand einen Trick oder hat eine Idee, wie ich die Suche nach Doppelten deutlich vereinfachen und beschleunigen kann.
Ich bin für jeden Tipp sehr dankbar!
LG Helikaon
ich habe folgendes Problem: Ich sitze an einer Tabelle mit medizinischen Daten die so aufgebaut ist, dass für jeden Fall eine Zeile angelegt ist (etwa 10.000 Fälle) mit weit über 100 Spalten mit verschiedensten Daten und Werten zum jeweiligen Fall.
Ich habe nun die Aufgabe diese Tabelle nach Fällen durchzusuchen, die doppelt vorkommen bzw. angelegt wurden. Dabei ergibt sich nun das Problem, dass die Daten und Werte sich bei ein und dem gleichen Fall teilweise erheblich unterscheiden können oder bei einem vom beiden viele Werte fehlen. Das kommt dadurch wenn der gleiche Patient von einer anderen Klinik (mit anderer Patienten-ID) zu einem späteren Zeitpunkt erneuert fälschlicherweise eingetragen wurde (nun mit anderen Daten und Werten).
Bestimmte Daten wie Alter, Wohnort, Ethnie usw. sind aber oft bei doppelten Fällen gleich (nur selten sind diese anders weil z.B. umgezogen oder ein Jahr später eingegeben) und die beste Möglichkeit die doppelten Fälle zu erkennen.
Ich hatte nun angefangen einfach verschiedene Filter (Sortierungen) dieser Daten in unterschiedlicher Priorisierung anzuwenden in der Hoffnung, dass die doppelten Fälle dann in der Tabelle direkt untereinander stehen. Bei 10.000 Zeilen und über 100 Spalten viel zu mühselige Arbeit. Außerdem gibt es dann doch zu viele Unterschiede darin welche Spalten bei den Doppelten denn nun übereinstimmen.
Vielleicht kennt hier ja jemand einen Trick oder hat eine Idee, wie ich die Suche nach Doppelten deutlich vereinfachen und beschleunigen kann.
Ich bin für jeden Tipp sehr dankbar!
LG Helikaon