Archiv für “System-Architektur”

Der PageRank-Algorithmus stellt ein, von den beiden Google-Gründern Lawrence Page und Sergey Brin entwickeltes, iteratives Berechnungs-Verfahren dar, um in einer beliebigen Menge verlinkter Dokumente, eine ...


Das Hantieren von verschiedenen (globalen) Variablen und diverser Objekte kann bei größeren Applikationen schnell zu einem ernstzunehmenden Problem werden. Das gilt besonders dann, wenn sich ...


Relative Worthäufigkeit (TF) Das Prinzip der relativen Worthäufigkeit bzw. Term Frequency (TF), basiert auf der Idee, dass ein Dokument umso wichtiger ist, je häufiger ein gesuchter ...


Fuzzy Retrieval Grundlage des Fuzzy Retrievals bildet die so genannte Fuzzy-Logik (engl. Fuzzy = unscharf) nach L.A. Zadeh.1 Im Gegensatz zu herkömmlichen Systemen, wie beispielsweise der ...


Bevor Webseiten auf die Algorithmen der Suchmaschinen optimiert werden können, muss zunächst ein grundsätzliches Verständnis dafür geschaffen werden, wie diese Algorithmen bzw. die Gewichtungs- und ...


Das Singleton Pattern kommt genau dann zum Einsatz, wenn man von einer bestimmten Klasse eine einzige exklusive Instanz benötigt (z.B. Datenbankverbindungen, zentrales Protokoll-Objekt etc.) Mit ...


Stefan Zörner, seines Zeichens Kolumnist im Java-Magazin, hat im Zuge der Java User Group Veranstaltung in Düsseldorf - der so genannten rheinjug - einen sehr ...


In den letzten Ausgaben unserer Reihe Architektur von Suchmaschinen haben wir uns mit dem Information Retrieval System von Suchmaschinen befasst. Mit der kurzen Aufarbeitung der ...


Word-Stemming Für den Prozess des Word-Stemmings ist die Einordnung eines Dokuments in die verwendete Sprache von entscheidender Bedeutung. Ziel des Word-Stemmings ist es in erster Linie, ...


Wortidentifikation Im Rahmen der Datennormalisierung (siehe Architektur von Suchmaschinen - Teil 10) wurde aus dem ursprünglichen Dokument ein Zeichenstrom erzeugt. Mittels der Wortidentifikation wird aus dem ...


Innerhalb eines Information Retrieval Systems wird unter Datennormalisierung das Löschen von Informationsmüll und inhaltslosem Ballast, wie beispielsweise von HTML- und JavaScript-Code, verstanden. Ziel ist es, ...


Nach einer kurzen, zeitlichen Unterbrechung führen wir unsere Reihe Architektur von Suchmaschinen fort. Die folgenden Zeilen sollen dabei einen kleinen Überblick über die verschiedenen Teil- ...


Information Retrieval meint die Informationswiedergewinnung bzw. Informationsbeschaffung im Bereich des inhaltsorientierten Suchens. In großen Datenbeständen, wie sie in Suchmaschinen eindeutig vorliegen, sind gewonnene Informationen zunächst ...


Zum Repository einer Suchmaschine gibt es letztlich nicht allzu viel zu sagen: Dort werden Dokumente als lokale Kopie gespeichert, sofern die Überprüfung und Validierung nach ...


In einer neuen und unregelmäßig erscheinenden Reihe wollen wir es uns zur Aufgaben machen, nach und nach verschiedene PHP Design Patterns in aller Kürze zu ...


Der Storeserver verarbeitet in erster Linie die Daten, die ihm von den Crawlern zur Verfügung gestellt werden, und lässt diese zunächst durch einige Filter laufen, ...


Die Crawler stellen die Komponente innerhalb der Architektur von Suchmaschinen dar, die mit den einzelnen Webseiten im World Wide Web in Kontakt tritt bzw. diese ...


Unter einem Scheduler wird in der Informatik die zeitliche Planung und Regelung der Ausführung von Prozessen innerhalb eines Betriebssystems oder von Schreib- und Lesezugriffen in ...


Der Dokumentenindex enthält Informationen über jedes einzelne Dokument des Datenbestands einer Suchmaschine. Hierzu zählen unter anderem die Länge des Dokuments, der Dokumentenstatus, ein Zeitstempel, das ...


Ein Webcrawler- oder Webrobot-System „[...] ist bei großen Suchmaschinen ein im Internet global verteilt arbeitendes Software- und Hardwaresystem, dass das Internet konstant auf neue oder ...


Auch wenn jede Suchmaschine ihre eigenen Algorithmen und Prozesse zur automatisierten Sammlung und Verarbeitung von Dokumenten verwendet, arbeiten im Endeffekt alle nach den gleichen oder ...