Messe Crawler

Projektdauer:  2 Monate
Programmiersprachen:  PHP
Projektstatus:  im Jahr 2010 abgeschlossen

 

Hintergrund

Während meiner Arbeit für zwei Düsseldorfer Hotels fiel mir auf, dass die Internetseiten der Messe Düsseldorf für die einzelnen Messen überwiegend das gleiche Layout verwendete.
Da auf den Seiten der jeweiligen Messen auch die Kontaktdaten der Aussteller aufgeführt werden, hatte ich beschlossen einen kleinen Crawler zu schreiben, der mir in regelmässigen Abständen diese Daten extrahiert und in einer CSV Datei für Mailings bereitstellt.

Version 1.0
Die erste Version war ein einfaches PHP Script in dessen Source die aufzurufende Messe Internetseite eingetragen wurde.


Version 2.0
Zum bequemeren Umgang wurden in Version 2 alle gültigen Messe Seiten eingetragen und mit einem Auswahlmenü versehen. Desweiteren wurde eine Routine eingebaut die das Script nach 500 Aufrufen pausieren läßt. Dies war notwendig da der Webserver der Messe Düsseldorf ansonsten alle weiterführenden Anfragen blockiert. Zudem habe ich ein kleines VB Macro erstellt, welches die vom Script erhaltenen Daten für den weiteren Gebrauch vorformatiert.


Version 3.0
Eine eventuelle Verfeinerung des Programms bestünde in der Implementierung einer grafischen Benutzeroberfläche. Hierfür müsste das Programm allerdings in eine andere Programmiersprache portiert werden. Zudem wäre eine Funktion vorstellbar, die durch den Einsatz von Proxy Servern die Abfrage-Pause verhindert.
Sollten Sie hieran interessiert sein, würde ich Sie bitten mich zu kontaktieren.

Permanentlink zu diesem Beitrag: https://www.hofa.biz/?p=29