Back to Question Center
0

ვებ სკრაპი: კარგი და ცუდი ბოტები - სემალტის განმარტება

1 answers:

ბოტები წარმოადგენენ თითქმის 55% ეს იმას ნიშნავს, რომ თქვენი ვებ-გვერდის ტრაფიკის უმეტესი ნაწილი ინტერნეტის რობოტებიდან მოდის, ვიდრე ადამიანები. ბოტი არის პროგრამული უზრუნველყოფის პროგრამა, რომელიც პასუხისმგებელია ციფრულ სამყაროში ავტომატური ამოცანების შესრულებაში. ბოტები, როგორც წესი, ასრულებენ განმეორებად ამოცანებს მაღალ სიჩქარეზე და უმეტესად არასასურველი ადამიანები არიან. ისინი პასუხისმგებელნი არიან მცირე სამუშაოებზე, რომლებიც, როგორც წესი, მივიღებთ მინიჭებას, მათ შორის საძიებო სისტემებს, ვებ-გვერდის ჯანმრთელობის მონიტორინგს, სიჩქარის გაზომვას, API- ების გამტარობას და ვებ-გვერდის მიღებას. ბოტები გამოიყენება აგრეთვე უსაფრთხოების აუდიტის ავტომატიზირებასა და სკანირების თქვენს საიტებზე, რათა გამოიჩინონ ხარვეზები, ისინი მყისიერად ხსნიან.

კარგი და ცუდი ბოტების შორის სხვაობის შესწავლა:

ბოტები შეიძლება დაიყოს ორ კატეგორიად, კარგი ბოტებით და ბოროტი ბოტებით. კარგი ბოტები ეწვევა თქვენს საიტებს და დაეხმარება საძიებო სისტემებს სხვადასხვა ვებ გვერდებს. მაგალითად, Googlebot Google- ის შედეგების მრავალრიცხოვან ვებსაიტებს აწყობს და ინტერნეტში ახალი ვებ-გვერდების აღმოჩენა აღმოაჩენს. იგი იყენებს ალგორითმებს, რათა შეაფასოს, რომელი ბლოგები ან ვებ-გვერდები უნდა იყოს crawled, როგორ ხშირად მცოცავი უნდა გაკეთდეს, და რამდენი გვერდები უკვე ინდექსირებული. ცუდი როლი პასუხისმგებელია მუქარის ამოცანების შესრულებაში, მათ შორის ვებ-გვერდზე scraping, კომენტარი სპამი და DDoS თავდასხმები. ისინი ინტერნეტში ყველა მოძრაობის 30 პროცენტს წარმოადგენენ..ჰაკერები შეასრულებენ ბოროტ ბოტებს და ასრულებენ სხვადასხვა სახის მუქარის ამოცანებს. ისინი მილიონებს ათვალიერებენ მილიარდი ვებ-გვერდს და მიზნად ისახავს უკანონოდ მოიპარონ ან გაიტაცეს. ისინი ასევე მოიხმარენ სიჩქარეს და მუდმივად ეძებენ plugins და პროგრამული უზრუნველყოფა, რომელიც შეიძლება გამოყენებულ იქნას შეღწევა თქვენი საიტებზე და მონაცემთა ბაზები.

რა არის ზიანი?

როგორც წესი, საძიებო სისტემებს იხილავთ გადანაწილებულ კონტენტს დუბლიკატის შინაარსით. ეს საზიანოა თქვენს საძიებო გრაგნილებზე და scrapes აიღებს თქვენს RSS არხებს, რათა შეამოწმონ თქვენი შინაარსი. ამ ტექნიკით ისინი იღებენ ფულს. სამწუხაროდ, საძიებო სისტემებმა არ შეასრულა ცუდი რობოტების მოშორება. ეს იმას ნიშნავს, თუ თქვენი შინაარსი გადაწერილია და წარსულს ჩაბარდება, თქვენი საიტის რეიტინგი რამოდენიმე კვირაში დაზიანდება. საძიებო სისტემებმა დააჯარიონ საიტები, რომლებიც შეიცავს დუბლიკატის შინაარსს და ვერ აღიარებენ რომელი ნახვა პირველად გამოქვეყნდა ნაჭერი კონტენტი.

არა ყველა ვებ სკრაპი ცუდია

ჩვენ უნდა ვაღიაროთ, რომ სკრაპი ყოველთვის არ არის მავნე და მავნე. ეს სასარგებლოა ვებ-გვერდის მფლობელებისთვის, როდესაც მათ სურთ, როგორც მრავალ ადამიანს, რაც შეეხება პროპაგანდას. მაგალითად, მთავრობის საიტებსა და სამოგზაურო პორტალები ზოგადი საზოგადოებისთვის სასარგებლო მონაცემებს იძლევიან. ამ ტიპის მონაცემები, როგორც წესი, ხელმისაწვდომია API- ზე, და scrapers დასაქმებულია ამ მონაცემების შეგროვებაზე. არავითარ შემთხვევაში არ არის საზიანო თქვენი ვებ-გვერდი. მაშინაც კი, როდესაც თქვენ ამ scrape ამ შინაარსის, იგი არ დააზარალებს რეპუტაცია თქვენი ონლაინ ბიზნეს.

ავთენტური და ლეგიტიმური scraping კიდევ ერთი მაგალითია აგრეგაციის ადგილები, როგორიცაა სასტუმროს დაჯავშნა პორტალები, საკონცერტო ბილეთები და საინფორმაციო საშუალებები. ამ ვებ-გვერდების შინაარსის გავრცელებაზე პასუხისმგებელი რობოტები იღებენ მონაცემებს API- ს მეშვეობით და გაიგებთ თქვენს ინსტრუქციებს. ისინი მიზნად ისახავს მოძრაობის და ამონაწერი ინფორმაცია ვებმასტერებისა და პროგრამისტებისთვის.

December 14, 2017
ვებ სკრაპი: კარგი და ცუდი ბოტები - სემალტის განმარტება
Reply