Login

Helikaon · 12.09.2023, 10:58

Moin,

ich habe folgendes Problem: Ich sitze an einer Tabelle mit medizinischen Daten die so aufgebaut ist, dass für jeden Fall eine Zeile angelegt ist (etwa 10.000 Fälle) mit weit über 100 Spalten mit verschiedensten Daten und Werten zum jeweiligen Fall.
Ich habe nun die Aufgabe diese Tabelle nach Fällen durchzusuchen, die doppelt vorkommen bzw. angelegt wurden. Dabei ergibt sich nun das Problem, dass die Daten und Werte sich bei ein und dem gleichen Fall teilweise erheblich unterscheiden können oder bei einem vom beiden viele Werte fehlen. Das kommt dadurch wenn der gleiche Patient von einer anderen Klinik (mit anderer Patienten-ID) zu einem späteren Zeitpunkt erneuert fälschlicherweise eingetragen wurde (nun mit anderen Daten und Werten).

Bestimmte Daten wie Alter, Wohnort, Ethnie usw. sind aber oft bei doppelten Fällen gleich (nur selten sind diese anders weil z.B. umgezogen oder ein Jahr später eingegeben) und die beste Möglichkeit die doppelten Fälle zu erkennen.

Ich hatte nun angefangen einfach verschiedene Filter (Sortierungen) dieser Daten in unterschiedlicher Priorisierung anzuwenden in der Hoffnung, dass die doppelten Fälle dann in der Tabelle direkt untereinander stehen. Bei 10.000 Zeilen und über 100 Spalten viel zu mühselige Arbeit. Außerdem gibt es dann doch zu viele Unterschiede darin welche Spalten bei den Doppelten denn nun übereinstimmen.

Vielleicht kennt hier ja jemand einen Trick oder hat eine Idee, wie ich die Suche nach Doppelten deutlich vereinfachen und beschleunigen kann.

Ich bin für jeden Tipp sehr dankbar!

LG Helikaon

Lutz Fricke · 12.09.2023, 11:19

Hallo Helikaon,

wenn deine Datensätze nicht wirklich identische in Name etc. sind, wird's schwierig und dir bleibt eigentlich nur die manuelle Prüfung.

Hilfreich sind die von dir verwendeten Sortierungen.
Anschließend kannst Du über eine Hilfsspalte gleiche Daten markieren und filtern, damit Du nicht immer alle 10000 Datensätze manuell durchlesen musst.
Dazu einfach z.B. nach Name und Vorname sortieren. In die Hilfsspalte die Formel

Code:
=WENN(ODER(A2=A1;A2=A3);"X";"")

wobei in der Spalte A das zu prüfende Merkmal steht.
Willst Du auf mehrere Merkmale prüfen (z.B. Nach- und Vorname) probier diese Formel:

Code:
=WENN(ODER(UND(A6=A5;B6=B5);UND(A6=A7;B6=B7));"X";"")

Jetzt kannst Du die Hilfssplate nach "X" filtern und bekommst alle Doppelungen.

Gruß,
Lutz

HKindler · 12.09.2023, 12:04

Hi,

ich denke das einfachste wäre es nach Nachname, Vorname, Adresse (in dieser Reihenfolge) zu sortieren. Dann stehen alle Peter Müller untereinander und man kann vergleichen, Daten abgleichen, Zeilen löschen.
Um den händischen Abgleich wirst du wohl nicht drumrum kommen.

Helikaon · 12.09.2023, 12:39

Vielen Dank schon mal für euren Input.

Da es sich um anonymisierte Forschungsdaten handelt sind leider keine persönlichen Daten wie Name oder Adresse vorhanden und die Fälle werden lediglich durch eine jeweilige ID benannt. Bei den Daten handelt es sich vor allem um medizinische Angaben (Vorerkrankungen, Laborwerte, Schwangerschaften etc.) die sich leider manchmal bei doppelten Eingaben unterscheiden können.

Ich werde dann wohl weiterhin mit den Sortierungen von relativ stabilen Parametern arbeiten, wenigstens werde ich nach Arbeitsstunden bezahlt Smile

Lutz Fricke · 12.09.2023, 13:17

Hallo Helikaon,

aber um dir Doppelungen genau dieser relativ stabilen Parameter herauszufinden, habe ich Dir ja die Formeln an die Hand gegeben.
Wenn Du nach Name, Vorname sortierst und dann 10000 Datensätze wirklich lesen musst, ist das doof, wenn Du aber mit der Formel nur die Datensätze herausfilterst, die Übereinstimmungen haben, erspart das viel Arbeit.

Gruß,
Lutz

Gast 123 · 12.09.2023, 21:15

Hallo

ich habe mal eine Beispieldatei entwickelt wie ich die Sache angehen würde. Vielleicht gefällt dir meine Idee.

Beim Auswerten von Dateien die reduziert werden sollen arbeite ich grundsätzlich NIE mit der Originaldatei!!
Ich mache mir eine Kopie Datei, damit alle Originaldaten erhalten bleiben, falls beim Auswerten was schiefgeht!

Kopiere bitte mal deine Originaldaten in Tabelle1, und schau mal was als Auswertung in der ID Tabelle herauskommt.
Dort hast du vier freie Spalten, zwei für deine Notizen, und zwei mit Formel Auswertung zum erleichtern der Auswertung.

Falls dir meine Arbeit gefällt kann ich noch ein Makro schreiben um alle 100 Spalten miteinander zu vergleichen.
Das kann je nachdem wiviele ID doppelt sind zeitlich lange dauern. Ist aber immer noch schneller als von Hand.

mfg Gast 123

Login
Benutzername:
Passwort:	Passwort vergessen?
	Merken