Ich hab' eine Exceltabelle mit ein paar Tausend Einträgen von Kunden. Aus diesen möchte ich die Doubletten anhand der Adresse kenntlich machen. Dafür könnte man natürlich 'Doppelte Werte' hervorheben. Leider gibt es dabei ein paar Kleinigkeiten, die mich vor Probleme stellen.
Die Doubletten werden mir natürlich nicht ausgewiesen, wenn sich die Adressen in Kleinigkeiten unterscheiden, wie in den Beispielen hier aufgeführt.
Beispiel: Goethe und Schillerstr. 2-4
1. Es könnte ein 'ö' anstelle des 'oe' geschrieben werden 2. Statt 'str.' wird 'straße' oder 'strasse' geschrieben. 3. zwischen der '2-4' wurden Leerzeichen gesetzt und es steht an anderer Stelle '2 - 4' 4. Anstatt der Leerzeichen sind Bindestriche da und es wird 'Goethe-und-Schillerstr.'
Wie ist es mir nun möglich, möglichst viele dieser kleinen "Fehler" zu ignorieren, sodass alle Doubletten angezeigt werden? Die Exceltabelle ist simple aufgebaut:
Kunde | Straße (inkl. Hausnummer) | Postleitzahl | Ort
Eine Möglichkeit: In einer Hilfsspalte ... ... alle Großbuchstaben in Kleinbuchstaben wandeln. ... alle ä, ö und ü in ae, oe und ue wandeln. ... alle ß in ss wandeln. ... alle Leerzeichen löschen. ... alle Bindestriche löschen. Und dann Duplikate entfernen.
Wir sehen uns! ... Detlef
Meine Beiträge können Ironie oder Sarkasmus enthalten.
Folgende(r) 1 Nutzer sagt Danke an shift-del für diesen Beitrag:1 Nutzer sagt Danke an shift-del für diesen Beitrag 28 • tramp
ich habe auch noch einen Vorschlag mit einer VBA Lösung anzubieten. Bitte die Original Adressen einmal ins Beispiel laden, in Spalte C + D selbst festlegen welcher Text wie geaendert werden soll, und sich das Ergebnis im Beispiel ansehen. Im Beispiel sieht man das manche Ersetzen Funktionen nicht problemlos klappen. Mein Programm kopiert die Spalte A nach B, tauscht den Text in Spalte C/D aus, sortiert den Datensatz und löscht die doppelten. Übrig bleiben Adressen ohne doppelte. Da kann man dann nachschauen was noch zu bereinigen ist. Achte mal auf: "Kleine Straße"
Hinweis zu Suchen/ Ersetzen! Das hat auch so seine Tücken, wenn man z.B. ae mit "ä" austauschen will! Habe ich in einem Buch Text gemacht, bis ich sah das -Michael und Israel- durch -Michäl und Isräl- ersetzt wurden. Das ist sicher nicht erwünscht, oder??
Eine Kontrolle des Text Ersetzen durch den Menschen ist m.E. durchaus sinnvoll! Vorteil meines Verfahrens ist, das du im Beispiel die Adressen nach Herzenslust per Makro und von Hand korrigieren kanns. Die Daten im Original bleiben dabei unveraendert erhalten. Das fertige Ergebnis kann dann im Original per Makro durch Suchen & Ersetzen austauschen werden. Das Makro zum austauschen im Original muss aber noch geschrieben werden!
mfg Gast 123
Folgende(r) 1 Nutzer sagt Danke an Gast 123 für diesen Beitrag:1 Nutzer sagt Danke an Gast 123 für diesen Beitrag 28 • tramp
ich hoffe ihr habt meinen Hinweis zu ae und "ä" nicht als Kritik an euch verstanden. Eigene Erfahrung aus meiner Praxis. Ich schaue mir solche Daten gerne mit eigenen Augen an, man ist erstaunt wie komplex Daten bereinigen sein kann.
An dieser Stelle erst einmal ein großes Dankeschön! Werde mich heute Nachmittag noch weiter mit meiner Tabelle beschäftigen und die Hilfen anwenden.
@Gast123 das funktioniert leider nicht ganz, da ich die Exceltabelle aus einem anderen Programm heraus erzeugt habe und dann rückwirkend die Doubletten löschen muss. - ergo: ich muss wissen, was genau doppelt ist um dann auch zu prüfen, ob die Daten gelöscht werden können. Bei 55k Einträgen wird das noch etwas dauern. Trotzdem großen Dank für deinen Input!
Bindestriche würde ich nicht löschen. Ansonsten wird aus der 2-4 eine 24, und die gibt es eventuell auch. Leerzeichen würde ich auch nicht löschen, da könnten Worte zusammengestellt werden, die es in der Form vielleicht auch gibt - z.B. viel - leicht
Stattdessen würde ich Leerzeichen durch Bindestriche ersetzen und anschließend doppelte Bindestriche zurück zu einfachen. Oder Leerzeichen durch Underline und aus "_-_" ," _-" und "-_" dann "-" machen.
. \\\|/// Hoffe, geholfen zu haben. ( ô ô ) Grüße, André aus G in T ooO-(_)-Ooo (Excel 97-2019+365)
Hätte denn noch jemand eine Idee, was ich mit dem Problem mache, dass manchmal Straße ausgeschrieben ist und manchmal Str. - also die Abkürzung geschrieben wurde?