Lấy toàn bộ dữ liệu blogspot. Cách bảo vệ và ngăn chặn?
Và tất nhiên mình cũng là một nạn nhân chỉ vừa mới hôm qua tính từ thời điểm viết bài này, Blog Cuộc sống muôn màu không những bị lấy toàn bộ data (dữ liệu), mà còn cả template, vì trước đó mình có share template này – đúng là giao trứng cho ác mà 🙁 . Không những thế tên đánh cắp còn pm cả yahoo và nói chuyện với một thái độ rất chi là ngông: “Bạn share luôn template với data đi, khỏi mất công mình đi chôm cho đỡ mệt“.
Trước tiên muốn ngăn chặn việc sao chép dữ liệu thì cần phải hiểu cách thức lấy cắp của nó cái đã.
Cách lấy toàn bộ dữ liệu của một trang blogspot
(Bài viết này mình có tham khảo của bạn Namka, vui lòng xem trích dẫn bên dưới)
Sỡ dĩ có thể lấy cắp toàn bộ dữ liệu của blogspot chính là do 1 tính năng mà blogger cung cấp – RSS – ATOM – Nguồn cấp dữ liệu bài đăng.
Bước 1. Xác định trang blogspot mà bạn muốn lấy dữ liệu
Mình sẽ gọi blog cần lấy dữ liệu là blog nạn nhân.
Ví dụ trang cần lấy là: http://victim.blogspot.com 😀
Nguồn cấp dữ liệu bài đăng sẽ là: http://victim.blogspot.com/atom.xml.
Lưu ý: Một vài blogspot tạo Feed, Atom sử dụng công cụ của bên thứ 3, như Blog cuộc sống muôn màu sử dụng feedburner.com.
Bước 2. Xác định tổng số lượng bài viết của blog nạn nhân
Copy toàn bộ đoạn scripts dưới đây:
<script style=”text/javascript”>
function showpostcount(json) {
document.write(‘<center>Tổng số bài viết: <b>’ + parseInt(json.feed.openSearch$totalResults.$t,10)
+ ‘</b></center>’);}</script>
<script src=”http://victim.blogspot.com/feeds/posts/default?alt=json-in-script&callback=showpostcount”></script>
<script style=”text/javascript”></script>
Lưu ý: Thay địa chỉ blog của nạn nhân mà bạn muốn lấy.
Vào trang test javascripts tại đây, và dán toàn bộ đoạn scripts mà bạn đã copy ở trên, chọn “Xem trước nhanh” sẽ có được tổng số bài viết tại khung kết quả.
Ví dụ: Sau khi chạy đoạn scripts ta biết được rằng blog nạn nhân có 300 bài. Chuyển sang bước tiếp theo.
Bước 3. Tiến hành lấy toàn bộ dữ liệu về máy
Copy đoạn bên dưới:
http://victim.blogspot.com/atom.xml?redirect=false&start-index=X&max-results=Y
– Thay http://victim.blogspot.com bằng blog của nạn nhân.
– X: Bài bắt đầu lấy, tính từ bài viết mới nhất, bài mới nhất là 1, không có 0 nha.
– Y: Tổng số bài sẽ lấy tính từ X.
Ví dụ: Sau khi xác định được blog nạn nhân có tất cả 300 bài như ở trên, ta làm như sau.
Copy toàn bộ đoạn dưới đây:
http://victim.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=300
Có 2 cách thực hiện:
Cách 1: Sử dụng trình duyệt
– Dán đoạn bên trên vào thanh URL của trình duyệt.
– Click phải vào nền trang chọn “Lưu thành”.
Cách 2: Sử dụng trình Internet Download Manager (IDM)
– Mở trình duyệt IDM, vào Task trên thanh menu, chọn “Add new download”
– Một hộp thoại hiện ra, Paste đoạn bên trên vào thanh Address rồi chọn download là được.
Lời khuyên: Để download nhanh chóng và thuận lợi cho việc import dữ liệu, ta nên chia nhỏ như sau:
– Lấy từ bài 1 đến bài 100:
http://victim.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=100
– Lấy từ bài 101 đến bài 200:
http://victim.blogspot.com/atom.xml?redirect=false&start-index=101&max-results=200
– Lấy từ bài 201 đến bài 300:
http://victim.blogspot.com/atom.xml?redirect=false&start-index=201&max-results=300
Lưu ý: Nếu sử dụng blog có template khác với template của nạn nhân để import toàn bộ dữ liệu, thì bài viết có thể trông sẽ không được đẹp và còn nhảy lung tung 😀
Đây chính là file chứa toàn bộ database của blog nạn nhân mà ta đã tải về, công việc tiếp theo là Import vào một blog bất kì của bạn.
Bước 4. Nhập, import dữ liệu vào blogspot
Truy cập vào trang quản trị blog của bạn, vào Cài đặt/ Khác, chọn “Nhập blog”
Lần lượt chọn các tập tin atom mà bạn đã tải về, nhớ nhập mã Capcha nha.
Tới đây thì chắc các bạn cũng biết cả rồi nên mình không dài dòng nữa.
Chú ý: Khi import xong nên đăng lấy lệ một vài bài để xóa bỏ Mã Capcha, tránh việc import quá nhiều bài cùng một lúc sẽ bị google cho là spam.
Cách cài đặt để ngăn chặn vào bảo vệ dữ liệu của blogspot
Ăn cắp dữ liệu thì khá chi tiết và dài dòng, nhưng để ngăn chặn thì lại khá đơn giản, tuy nhiên, đây chỉ là cách tương đối thôi, gặp phải cao thủ hoặc “chuyên gia ăn cắp bằng tay” thì cũng chịu các bạn ạ 🙁
Hầu như nhiều blogger ít để ý đến tính năng sẵn có này của Google, đó là cài đặt nguồn cấp dữ liệu cho blog của bạn. Chính vì điều này nên đã tạo điều kiện thuận lợi cho những kẻ ăn cắp vặt lộng hành.
Đầu tiên, các bạn cũng vào Cài đặt/ Khác, phía dưới công cụ Nhập – Xuất – Xóa Blog là công cụ tùy chỉnh nguồn cấp dữ liệu. Thiết lập như sau:
Tại sao lại thiết lập như vậy?
Đầu tiên các bạn vào nguồn cấp dữ liệu của Blog cuộc sống muôn màu để tham khảo.
http://feeds.feedburner.com/Cuocsongmuonmau-smile
– Cho phép nguồn cấp dữ liệu: Đến dấu ngắt
Thiết lập này khiến cho kẻ cắp chỉ lấy được một phần của bài viết, từ đầu bài cho đến dấu ngắt dòng.
Lưu ý: Mỗi khi viết bài, bạn phải chèn dấu ngắt dòng cho bài viết, vừa có thể sử dụng được tính năng này, vừa giảm nhẹ thời gian tải trang (loading) của blog.
Cách đặt dấu ngắt dòng như sau:
– Đặt con trỏ chuột vào vị trí cần ngắt, tốt nhất là ở sau bức hình đầu tiên của blog.