Xây dựng Trình lập lịch tải xuống với Kỹ năng lập trình nhỏ
Tất cả chúng ta đều thích tải xuống từ internet và có rất nhiều công cụ quản lý tải xuống tuyệt vời mà chúng ta có thể sử dụng để lên lịch tải xuống. Việc sử dụng trình quản lý tải xuống có thể dễ dàng hơn, nhưng không có hại gì trong việc khám phá các công cụ đã có trong Ubuntu của chúng tôi và sử dụng toàn bộ nó.
Trong bài viết này, chúng tôi sẽ cho bạn thấy một phần mềm tích hợp trong Ubuntu mà chúng ta có thể sử dụng để tải xuống nội dung từ internet bằng cách sử dụng wget. Trên hết, chúng tôi sẽ chỉ cho bạn cách lên lịch tải xuống bằng Cron.
Tải xuống bằng Wget
Wget là gói phần mềm miễn phí để truy xuất các tệp bằng HTTP, HTTPS và FTP, các giao thức Internet được sử dụng rộng rãi nhất. Nó là một công cụ dòng lệnh không tương tác, vì vậy nó có thể dễ dàng được gọi từ các tập lệnh, công việc cron, thiết bị đầu cuối mà không có hỗ trợ X-Windows, v.v..
Mở thiết bị đầu cuối của bạn và hãy khám phá cách chúng tôi có thể sử dụng wget để tải xuống nội dung từ mạng. Cú pháp cơ bản của tải xuống với wget là như sau:
wget [tùy chọn] đầy đủ [URL]
Lệnh này sẽ tải hướng dẫn wget vào ổ đĩa cục bộ của bạn
wget http://www.gnu.org/software/wget/manual/wget.pdf
Cron Linux
Ubuntu đi kèm với một trình nền cron được sử dụng để lên lịch các tác vụ sẽ được thực thi tại một thời điểm nhất định. Crontab cho phép bạn chỉ định các hành động và thời gian cần thực hiện. Đây là cách bạn thường lên lịch tác vụ bằng cách sử dụng công cụ dòng lệnh.
Mở một cửa sổ đầu cuối và nhập crontab -e.
Mỗi phần trong một crontab được phân tách bằng một khoảng trắng, với phần cuối cùng có một hoặc nhiều khoảng trắng trong đó. Một mục cron bao gồm phút (0-59), giờ (0-23, 0 = nửa đêm), ngày (1-31), tháng (1-12), ngày trong tuần (0-6, 0 = Chủ nhật), lệnh. Mục thứ ba trong crontab ở trên tải xuống wget.pdf lúc 2 giờ sáng. Mục đầu tiên (0) và mục thứ hai (2) có nghĩa là 2:00. Mục thứ ba đến thứ năm (*) có nghĩa là bất kỳ thời gian nào trong ngày, tháng hoặc tuần. Mục cuối cùng là lệnh wget để tải xuống wget.pdf từ URL được chỉ định.
Đó là cơ bản về wget và cách thức hoạt động của Cron. Hãy lấy một ví dụ về một ví dụ thực tế về cách lên lịch tải xuống.
Lập lịch tải xuống
Chúng tôi sẽ tải xuống Firefox 3.6 lúc 2 giờ sáng. Vì vậy, ISP của chúng tôi chỉ cung cấp một lượng dữ liệu hạn chế, chúng tôi cần dừng tải xuống lúc 8 giờ sáng. Đây là những gì thiết lập trông giống như.
Bỏ qua 2 mục đầu tiên trong crontab ở trên. Lệnh thứ ba và thứ tư là 2 lệnh duy nhất mà bạn cần. Lệnh thứ ba thiết lập một tác vụ sẽ tải xuống Firefox lúc 2 giờ sáng:
[mã]
0 2 * * * wget -c http://doad.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/ mã]
Các tùy chọn -c biểu thị rằng wget sẽ tiếp tục tải xuống hiện có nếu nó chưa được hoàn thành.
Lệnh thứ tư sẽ dừng wget lúc 8 giờ sáng. 'Killall' là lệnh unix tiêu diệt các tiến trình theo tên.
[mã]
0 8 * * * killall wget
[/ mã]
Killall wget nói với Ubuntu hãy ngừng wget tải xuống tệp lúc 8 giờ sáng.
Các lệnh wget hữu ích khác
1. Chỉ định thư mục để tải xuống một tập tin
[mã]
wget -output-document = / home / zainul / Tải xuống / wget hướng dẫn.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/ mã]
tùy chọn -output-document cho phép bạn chỉ định thư mục và tên của tệp bạn tải xuống
2. Đang tải xuống một trang web
wget cũng có khả năng tải xuống một trang web.
[mã]
wget -m http://www.google.com/profiles/zainul.franciscus
[/ mã]
Lệnh trên sẽ tải xuống toàn bộ trang web hồ sơ google của tôi. Tùy chọn '-m' cho biết bạn muốn tải xuống hình ảnh 'phản chiếu' của URL đã chỉ định.
Một tùy chọn quan trọng khác là cho wget biết có bao nhiêu liên kết nên theo sau khi tải xuống một trang web.
[mã]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/ mã]
Lệnh wget ở trên sử dụng hai tùy chọn. Tùy chọn đầu tiên '-r' cho phép wget tải xuống trang web được chỉ định theo cách đệ quy. Tùy chọn thứ hai '-l1' cho wget chỉ nhận cấp liên kết đầu tiên từ trang web được chỉ định đó. Chúng tôi có thể thiết lập tối đa ba cấp '-l2' và '-l3'.
3. Bỏ qua mục nhập robot
Web master duy trì một tệp văn bản có tên Robot.txt. 'Robot.txt' duy trì danh sách URL mà trình thu thập dữ liệu trang web như wget không nên thu thập dữ liệu. Chúng ta có thể bảo wget bỏ qua tùy chọn 'Robot.txt' với tùy chọn '-erobots = off'. Lệnh sau cho wget tải xuống trang đầu tiên trong hồ sơ google của tôi và bỏ qua 'Robot.txt.
[mã]
wget -erobots = tắt http://www.google.com/profiles/zainul.franciscus
[/ mã]
Một lựa chọn hữu ích khác là -U. Tùy chọn này sẽ che giấu wget như một trình duyệt. Xin lưu ý rằng việc che dấu một ứng dụng như một ứng dụng khác có thể vi phạm điều khoản và dịch vụ của nhà cung cấp dịch vụ web.
[mã]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/ mã]
Phần kết luận
Wget là một gói phần mềm GNU rất cũ nhưng có thể hack mà chúng ta có thể sử dụng để tải xuống các tệp. Wget là một công cụ dòng lệnh tương tác, có nghĩa là chúng ta có thể để nó chạy trên máy tính của mình trong nền mà không phải khởi động bất kỳ ứng dụng nào. Kiểm tra trang wget man
[mã]
$ người đàn ông
[/ mã]
để hiểu các tùy chọn khác mà chúng ta có thể sử dụng với wget.
Liên kết
Hướng dẫn sử dụng
Cách kết hợp hai tập tin đã tải xuống khi wget thất bại giữa chừng
Linux QuickTip: Tải xuống và hủy đăng ký trong một bước