• Verantwortungsvolles und höfliches Crawling: Theorie und Praxis mit Scrapy

    Ein Crawler ist im Grunde sehr simpel und schnell programmiert. Wir senden eine Anfrage für eine bestimmte URL an einen Server und warten auf die Antwort. Die Antwort speicher wir ab und fertig ist der erste Request. Jetzt extrahieren wir nur noch die Links aus der Seite, senden neue Requests und fertig ist der Crawler.

  • Berichterstattung zur Bundestagswahl 2017

    Zur Bundestagswahl 2017 wollen wir eine kleine Datenauswertung basierend auf meinem Scraping- und Processing-Framework molescrape machen. Hierzu habe ich mehrere deutsche Nachrichtenportale beobachtet und ihre Artikel ausgewertet. Leider kam mir die Idee sehr kurzfristig, sodass wir bei den meisten Seiten lediglich auf eine Woche Berichterstattung blicken können.

  • Securing a fresh V-Server

    Whenever you buy a new V-Server the first thing you want to do is to make it secure, to avoid being hacked immediately. Good hosters will already provide you with quite good standard configuration, but still there might be some room for improvement.

  • A long-term data collection and analysis system

    For each data science project, you somehow have to retrieve your data. In some cases you get preprocessed data (consider Kaggle competitions), in other cases you will search for existing data sources in formats like CSV, JSON or Excel (consider data.gov and similar ones) and sometimes you have to collect the data yourself.

  • Ein Überblick über den österreichischen Fahrzeugmarkt

    Ich suche derzeit nach einem Auto und wie vermutlich jeder Autokäufer habe ich mich vorab im Internet ein wenig zum Thema informiert. Dabei stößt man in beinahe jedem Artikel auf den Punkt, man solle auf keinen Fall einen Neuwagen kaufen. Also habe ich mir einen zwei Jahre alten Skoda Fabia angesehen. Letztlich war ich mir bei diesem Fahrzeug leider nicht sicher, ob es wirklich gut genug behandelt wurde und habe zu den beobachteten Problemen im Internet einige problematische Zukunftsszenarien gelesen.

subscribe via RSS