Allgemeines 22.016 Themen, 149.128 Beiträge

Wie funktioniert eigentlich eine Internet Suchmaschine?

spiderjens / 3 Antworten / Baumansicht Nickles

Die finden Millionen Einträge in Sekunden. Wird explizit das ganze Net durchsucht, oder haben die alle Seiten auf ihrem eigenen Server gespeichert? Und was für Rechner haben die? Wenn meinereiner seinen PC nach Daten durchsucht, dauert das wesentlich länger.

MfG Jens

bei Antwort benachrichtigen
Conqueror spiderjens „Wie funktioniert eigentlich eine Internet Suchmaschine?“
Optionen

Suchsystem das mit einem Abfragemechanismus arbeitet und in der Lage ist, Informationen mit Hilfe des Einsortierens spezieller Schlüsselbegriffe in eine Verweisdatenbank zu strukturieren. Wird ein Suchbegriff eingegeben, so werden aus der Verweisdatenbank die zugehörigen Informationen herausgesucht und angezeigt. Die damit verbundenen Daten bestehen aus Texten aus dem Internet, die sogenannte Robots sammeln und automatisch nach speziellen Algorithmen bewerten. Dabei herrscht die Priorität, aus den Texten möglichst genau die Relevanz für den jeweils eingegebenen Suchbegriff zu ermitteln. Mit der Bewertung und den sich daraus ergebenden Positionen der Suchtreffer Ranking wird von jeder Suchmaschine anders umgegangen.

bei Antwort benachrichtigen
Borlander spiderjens „Wie funktioniert eigentlich eine Internet Suchmaschine?“
Optionen
Wird explizit das ganze Net durchsucht, oder haben die alle Seiten auf ihrem eigenen Server gespeichert?
Also zumindest nicht bei jeder Suchanfrage ;-)
Die "echten" Suchmaschinen katalogisieren ständig neue Internetseite bzw. aktualisieren auch die Inhalte von bereits katalogisierten Seiten - das geschieht alles voll automatisch. Die Seiten bzw. Teile davon werden dann zusammen mit einer Bewertung/Ranking (das richtest sich nicht nur nach der Seite selbst, bei Google ist die Anzahl der Links von anderen Seiten beispielsweise ein wichtiger Indikator) gespeichert.

Grundsätzlich wird das Suchen etwa so funktionieren:
Wichtig für eine schnelle Suche ist eine "Wortdatenbank", in der dann zu einem gefundenen Wort alle (katalogisierten) Internetseiten gespeichert sind auf denen dieses Wort auftaucht. Wird dann nach einem Wort gesucht werden "einfach" alle zugehörigen Seiten sortiert nach der Bewertung ausgegeben. Bei mehreren Wörten bildet man dann einfach die Schnittmenge der Ergebnisse. Würde man also nach Michael Nickles suchen so würden alle Seiten ausgegeben auf denen sowohl das Wort "Michael" als auch das Wort "Nickles" vorkommt.

Schwieriger wird das ganze dann wenn man nach bestimmten Wortkombinationen sucht die in einer bestimmten Reihenfolge vorkommen, wie z.B. "Michael Nickles" (würde man nach beiden Worten suchen so könnte man auch Seiten bekommen die überhaupt nichts mit ihm zu tun haben) - dafür dürfte zusätzlich noch der Volltext der Seite notwendig sein...

Einen Anderen Ansatz haben übrigens Meta-Suchmaschinen - die lassen einfach von _mehreren_ anderen Suchdiensten suchen und suchen sich dann im idealfall das "beste" aus den Ergebnissen aus...

Und was für Rechner haben die?
Google betreibt eine Serverfarm die mehr oder weniger aus Standardrechnern besteht, auf die die Anfragen automatische verteilt werden - für einen Rechner wäre das natürlich entscheidend zu viel...

Wenn meinereiner seinen PC nach Daten durchsucht, dauert das wesentlich länger.
Das liegt daran das Du keinen Volltextindex Deines Kompletten datenbestandes hast (sofern Du nach Inhalten suchst), d.h. es muß jedes mal erst nachgeschaut werden was überhaupt da ist - Suchmaschienen "wissen was da ist und suchen nur noch das raus was passt". Der Index-Dienst von W2K/XP bietet übrigens eine ähnliche Funktionalität (darüber gab es auch schon mal einen Artikel auf Nickles.de (oder über PCReport - weiß nicht mehr genau)...


Gruß
Borlander
bei Antwort benachrichtigen
spiderjens Nachtrag zu: „Wie funktioniert eigentlich eine Internet Suchmaschine?“
Optionen

Super, danke für dir ausführlichen Antworten. Hatte mich schon lange gewurmt, daß ich es nicht wusste :-)
Schönes WE

Jens

bei Antwort benachrichtigen