Semalt Expert On Scraping Δεδομένων Ιστοτόπου - Καλά και Κακά Bots

Το web scraping υπάρχει εδώ και πολύ καιρό και θεωρείται χρήσιμο για webmasters, δημοσιογράφους, ελεύθερους επαγγελματίες, προγραμματιστές, μη προγραμματιστές, ερευνητές μάρκετινγκ, μελετητές και ειδικούς στα μέσα κοινωνικής δικτύωσης. Υπάρχουν δύο τύποι bots: καλό bots και κακό bots. Τα καλά bots δίνουν τη δυνατότητα στις μηχανές αναζήτησης να ευρετηριάσουν το περιεχόμενο του ιστού και έχουν υψηλή προτίμηση από τους ειδικούς της αγοράς και τους ψηφιακούς εμπόρους. Τα κακά bots, από την άλλη πλευρά, είναι άχρηστα και στοχεύουν να καταστρέψουν την κατάταξη της μηχανής αναζήτησης ενός ιστότοπου. Η νομιμότητα του web scraping εξαρτάται από τον τύπο των bots που έχετε χρησιμοποιήσει.

Για παράδειγμα, εάν χρησιμοποιείτε τα κακά bots που λαμβάνουν το περιεχόμενο από διαφορετικές ιστοσελίδες με σκοπό την παράνομη χρήση του, η απόσυρση ιστού μπορεί να είναι επιβλαβής. Αλλά αν κάνετε χρήση των καλών bots και αποφύγετε τις επιβλαβείς δραστηριότητες, όπως επιθέσεις άρνησης υπηρεσίας, διαδικτυακές απάτες, ανταγωνιστικές στρατηγικές εξόρυξης δεδομένων, κλοπές δεδομένων, παραβιάσεις λογαριασμών, μη εξουσιοδοτημένη σάρωση ευπάθειας, απάτες ψηφιακών διαφημίσεων και κλοπή πνευματικών ιδιοκτησιών, τότε η διαδικασία απόξεσης ιστού είναι καλή και χρήσιμη για την ανάπτυξη της επιχείρησής σας στο Διαδίκτυο.

Δυστυχώς, οι περισσότεροι freelancers και startups λατρεύουν τα κακά bots επειδή είναι ένας φθηνός, ισχυρός και ολοκληρωμένος τρόπος συλλογής δεδομένων χωρίς καμία ανάγκη για συνεργασία. Οι μεγάλες εταιρείες, ωστόσο, χρησιμοποιούν τις νόμιμες ξύστρες Ιστού για τα κέρδη τους και δεν θέλουν να καταστρέψουν τη φήμη τους στο Διαδίκτυο με παράνομες ξύστρες Ιστού. Οι γενικές απόψεις σχετικά με τη νομιμότητα της απόξεσης ιστού δεν φαίνεται να έχουν σημασία, διότι τους τελευταίους μήνες έχει καταστεί σαφές ότι τα ομοσπονδιακά δικαστικά συστήματα καταστρέφουν ολοένα και περισσότερες παράνομες στρατηγικές απόξεσης ιστού.

Το web scraping ξεκίνησε ως παράνομη διαδικασία το 2000, όταν η χρήση bots και αραχνών για την απόσυρση ιστοσελίδων θεωρήθηκε ανοησία. Δεν προσαρμόστηκαν πολλές πρακτικές για να σταματήσει η επέκταση αυτής της διαδικασίας στο Διαδίκτυο μέχρι το 2010. Το eBay υπέβαλε αρχικά τις προκαταρκτικές αποφάσεις κατά του Bidder's Edge, ισχυριζόμενος ότι η χρήση ρομπότ στον ιστότοπο είχε παραβιάσει τους νόμους του Trespass to Chattels. Το δικαστήριο ενέκρινε σύντομα τις διαταγές, επειδή οι χρήστες έπρεπε να συμφωνήσουν τους όρους και τις προϋποθέσεις του ιστότοπου και ένας μεγάλος αριθμός bots απενεργοποιήθηκε, καθώς θα μπορούσε να είναι καταστροφικός για τις μηχανές υπολογιστών του eBay. Η αγωγή σύντομα διευθετήθηκε έξω από το δικαστήριο και το eBay σταμάτησε όλους να χρησιμοποιούν bots για ξύσιμο ιστού, ανεξάρτητα από το αν είναι καλό ή κακό.

Το 2001, ένα ταξιδιωτικό γραφείο μήνυσε τους ανταγωνιστές που απέσπασαν το περιεχόμενό του από τον ιστότοπο με τη βοήθεια επιβλαβών αραχνών και κακών ρομπότ. Οι δικαστές έλαβαν και πάλι μέτρα κατά του εγκλήματος και ευνόησαν τα θύματα, λέγοντας ότι τόσο η απόξεση ιστού όσο και η χρήση ρομπότ θα μπορούσαν να βλάψουν διάφορες διαδικτυακές επιχειρήσεις.

Σήμερα, για ακαδημαϊκή, ιδιωτική και συγκεντρωτική πληροφόρηση, πολλοί άνθρωποι βασίζονται σε δίκαιες διαδικασίες απολέπισης ιστοσελίδων και πολλά εργαλεία απόξεσης ιστού έχουν αναπτυχθεί από αυτή την άποψη. Τώρα οι αξιωματούχοι λένε ότι δεν είναι όλα αυτά τα εργαλεία αξιόπιστα, αλλά αυτά που έρχονται σε πληρωμένες ή premium εκδόσεις είναι καλύτερα από τα δωρεάν εργαλεία ξύλου .

Το 2016, το Κογκρέσο είχε εγκρίνει την πρώτη νομοθεσία για να στοχεύσει τα κακά bots και να ευνοήσει τα καλά bots. Ο νόμος για τις πωλήσεις εισιτηρίων σε απευθείας σύνδεση (BOTS) δημιουργήθηκε ο οποίος απαγόρευσε τη χρήση παράνομου λογισμικού που θα μπορούσε να στοχεύει τους ιστότοπους, καταστρέφοντας τις τάξεις των μηχανών αναζήτησης και καταστρέφοντας τις επιχειρήσεις τους. Υπάρχουν θέματα δικαιοσύνης. Για παράδειγμα, το LinkedIn έχει ξοδέψει πολλά χρήματα στα εργαλεία που εμποδίζουν ή εξαλείφουν τα κακά bots και ενθαρρύνουν τα καλά bots. Δεδομένου ότι τα δικαστήρια προσπαθούν να αποφασίσουν τη νομιμότητα της απόξεσης ιστού, οι εταιρείες κλέβουν τα δεδομένα τους.

send email