Ich würde mich in meinem Urlaub gern etwas intensiver mit Deduplikation unter Linux beschäftigen und bin (außer auf Git und den rsync-Hardlink-Geschichten) auf das "lessfs" gestoßen: http://www.linuxjournal.com/content/data-deduplication-linux . Hat jemand der versierteren Foristen sich vielleicht einmal mit dem "lessfs" beschäftigt und als zuverlässig genug für ein reines Datengrab befunden?
Hinweise auf Alternativen werden natürlich gern entgegengenommen :-)
Linux 15.036 Themen, 107.107 Beiträge
Hallo Weichurst,
augenscheinlich zu wenige DB-Fachleute im Forum.
Als Starthilfe gibt es einen tollen, deutschen Artikel auf tecchannel unter dem Stichwort: Deduplizierung.
MfG.
violetta
augenscheinlich zu wenige DB-Fachleute im Forum
Das kann ich nicht beurteilen, die müssen aber auch nicht zwangsläufig etwas zum Thema "Deduplikation auf FS-Ebene" beizutragen haben.
Ist eine andere Baustelle.
Vielleicht sollte ich meine Frage noch präzisieren: Deduplikation unter ZFS ist mir im weitesten Sinne bekannt, dieses Feature kostet dort natürlich einiges an Leistung: http://constantin.glez.de/blog/2011/07/zfs-dedupe-or-not-dedupe .
Nun könnte ich mir irgendeine (Open)Solaris- oder sonstige Kiste hinstellen, mit Speicher zuballern und gut ist, aber ich würde ungern noch ein weiteres OS betreuen müssen.
Es gibt zwar ZFS unter Linux, aber dem Braten traue ich nicht so recht. Daher suche ich ein simples FS mit Deduplikation -> bin auf der Recherche dann auf "lessfs" gestoßen. Kenne ich nicht, daher die Frage ans Forum.
Mal schauen, was mir so über den Weg läuft, habe ja bald 3 Wochen Zeit zum Frickeln.
Mal schauen, was mir so über den Weg läuft, habe ja bald 3 Wochen Zeit zum Frickeln. |
Hallo Weichwurst,
Ich würde mich und sicher auch andere User hier freuen wenn du dann mal genaueres berichtest. Ich selbst habe mich mit Deduplizierung noch nie so richtig befasst und daher ehrlich gesagt auch keinerlei Ahnung davon.
Wie man sieht gibt es immer wieder neue Baustellen wo man etwas zu lernen hat.
MfG Acader
Wenn dein Englisch leidlich funktioniert, ist dieser Wiki-Eintrag ganz empfehlenswert: http://en.wikipedia.org/wiki/Data_deduplication (besser erklärt als auf der deutschen Wiki-Seite).
Ich kenne Dedup vom ZFS und von dieser Ausgeburt der Hölle namens "Windows Home Server". Ist kein wirklich kompliziertes Feature, es soll eben Platz sparen. Typischer Einsatzfall wäre ein File Server, auf dem viele User Schreibrecht haben und somit auch ihre Daten ablegen.
Das geht garantiert auch gut und zuverlässig unter Linux, aber da fehlen mir komplett die Erfahrungswerte.
Hallo Weichwurst,
ich danke dir für diesen schönen Link. Wenn ich genügend Zeit finde werde ich in den tiefen des mir Unbekannten neue Kenntnisse aneignen.
MfG Acader
Ist kein wirklich kompliziertes Feature, es soll eben Platz sparen.
Jein. Wenn man maximal Platz sparen will dann reicht es auch nicht auf Basis von Dateisystemsektoren zu deduplizieren (auch das würde ich schon nicht als unkompliziert bezeichnen!). z.B. reicht es bei identischen eMail an mehrere Empfänger schon aus wenn sich die Länge des Headers minimal unterscheidet um vollkommen unterschiedliche Sektoren zu produzieren. Das ist dann aber vielleicht auch eine Deduplizierung die man besser erst mit Verzögerung durchführt weil es sonst wirklich langsam werden dürfte...
Gruß
Borlander
Es gibt zwar ZFS unter Linux, aber dem Braten traue ich nicht so recht.
Warum nicht? Dass es nicht im Kernel integriert ist hat doch primär lizenzrechtliche Gründe. Auf jeden Fall würde ich davon ausgehen, dass ZFS unter Linux schon deutlich besser ausgetestet ist als das von Dir gefundene lessfs. Daher würde ich ZFS per FUSE doch eher vertrauen. Inzwischen gibt es wohl auch noch eine Lösung mit der man sich ZFS als Kernel-Modul bauen kann: http://zfsonlinux.org/
Daher suche ich ein simples FS mit Deduplikation -> bin auf der Recherche dann auf "lessfs" gestoßen.
So simpel, dass ich ihm mein Leben anvertrauen würde ist lessfs allerdings auch nicht soweit ich das beim Überfliegen erkennen konnte. Insbesondere da scheinbar noch eine zusätzliche Datenbankkomponente mit ins Spiel kommt.
Ist für btrfs langfristig nicht auch Deduplizierung geplant? Ich meine ich hätte mal was entsprechendes gelesen, konnte es spontan aber nicht mehr wieder finden.
Gruß
Borlander
Hallo Borlander,
danke für die Einschätzung zu ZFS. Ich mache mir die Angelegenheit ganz einfach und setze mir je eine Kiste mit ZFS und eine mit "lesserfs" auf.
Für btrfs scheint Deduplikation tatsächlich geplant zu sein:
https://plus.google.com/104513165422799310344/posts/Rdveuthnqss
Hallo weichwurst,
kann Dir nur den Artikel auf tecchannel wärmsten empfehlen. Viele Deiner Fragen werden dort beantwortet. Ein Blick auf die Pro.- und Kontraseite zeigt Licht und Schatten von Deduplikation.
MfG.
violetta
hallo Violetta,
total fremd ist mir das Thema nicht. Unter Linux habe ich bisher keine Erfahrungen dazu sammeln können, daher die Anfrage ans Forum. Der Hinweis von Borlander hat mich in Richtung ZFS recherchieren lassen. Scheint ja auch in der Linux-Implementierung sehr ordentlich zu laufen. Zum Vergleich werde ich eine vergleichbare Kiste mit "lessfs" danebenstellen.