Java爬虫之下载IMDB中Top250电影的图片

tianren124 发布于2019-08-15 15:12 / 4232人阅读

摘要：介绍在博客爬虫爬取豆瓣电影图片中我们利用的爬虫框架，将豆瓣电影图片下载到自己电脑上。那么，在的爬虫的也可以下载图片吗答案当然是肯定的在本次分享中，我们将利用的包和函数来实现图片的下载。

介绍

在博客：Scrapy爬虫（4）爬取豆瓣电影Top250图片中我们利用Python的爬虫框架Scrapy，将豆瓣电影Top250图片下载到自己电脑上。那么，在Java的爬虫的也可以下载图片吗？答案当然是肯定的！
在本次分享中，我们将利用Java的Jsoup包和FileUtils.copyURLToFile()函数来实现图片的下载。我们将会爬取IMDB中Top250电影的图片到自己电脑上，其网页截图如下：

思路

我们实现图片下载的爬虫思路如下：

利用Jsoup解析网页，得到电影图片的url和name

利用FileUtils.copyURLToFile()函数将图片下载到本地

准备

在本文程序中，除了Jsoup包外，还用到了commons-io包，其下载地址为：https://mvnrepository.com/art... ，我们主要利用该package中的FileUtils.copyURLToFile(). 读者需要下载这两个包，并将它们在Eclipse中加入到项目的路径中。

程序

本次分享的主要程序为ImageScraper.java，其完整代码如下：

package wikiScrape;

/* 本爬虫爬取http://www.imdb.cn/IMDB250/中Top250的图片
 * 先利用Jsoup解析得到该网页中的图片的url
 * 然后利用FileUtils.copyURLToFile()函数将图片下载到本地
 */

import java.io.*;
import java.net.*;
import java.util.Date;
import java.util.ArrayList;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.apache.commons.io.FileUtils;


public class ImageScraper {

    public static void main(String[] args) {
        Date d1 = new Date();
        
        System.out.println("爬虫开始......");
        
        // 爬取的网址列表，一共十个网页
        ArrayList urls = new ArrayList();
        urls.add("http://www.imdb.cn/IMDB250/");
        for(int i=2; i<=10; i++) {
            urls.add("http://www.imdb.cn/imdb250/"+ Integer.toString(i));
        }
        
        String dir = "E://log/";  // 图片储存目录
        
        // 利用循环下载每个页面中的图片
        for(String url: urls) {
            int index = urls.indexOf(url)+1;
            System.out.println("开始下载第"+index+"个网页中的图片...");
            getPictures(url, dir);
            System.out.println("第"+index+"个网页中的图片下载完毕！
");
        }
        
        System.out.println("程序运行完毕！");
        Date d2 = new Date();
        
        // 计算程序的运行时间，并输出
        long seconds = (d2.getTime()-d1.getTime())/1000;
        System.out.println("一共用时： "+seconds+"秒.");
        
    }
    
    // getContent()函数: 将网页中的电影图片下载到本地
    public static void getPictures(String url, String dir){
        
        // 利用URL解析网址
        URL urlObj = null;
        try{
            urlObj = new URL(url);

        }
        catch(MalformedURLException e){
            System.out.println("The url was malformed!");
        }

        // URL连接
        URLConnection urlCon = null;
        try{
            // 打开URL连接
            urlCon = urlObj.openConnection(); 
            // 将HTML内容解析成UTF-8格式
            Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url);
            // 提取电影图片所在的HTML代码块
            Elements elems = doc.getElementsByClass("ss-3 clear");
            Elements pic_block = elems.first().getElementsByTag("a");
            
            for(int i=0; i
运行
  运行以上程序，结果如下：

  查看E盘中的log文件夹，内容如下：

  一共下载了244张图片，用时140秒，有几张图片下载失败，效果还算OK.
  本次分享就到此结束喽，欢迎大家交流~~

云服务器 GPU云服务器豆瓣top250的数据分析 top250 java中图片的传输图片爬虫软件下载

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/68922.html

Java爬虫之多线程下载IMDB中Top250电影的图片

摘要：本次分享将在此基础上，利用多线程，提高程序运行的效率。思路本次分享建立在博客爬虫之下载中电影的图片上，总体的爬虫思路没有变化，只是在此基础上引入多线程。介绍在博客：Java爬虫之下载IMDB中Top250电影的图片中我们实现了利用Java爬虫来下载图片，但是效率不算太高。本次分享将在此基础上，利用多线程，提高程序运行的效率。思路本次分享建立在博客Java爬虫之下载IMD...

wujl596 2019-08-15 15:12 评论0 收藏0
Python爬虫之多线程下载豆瓣Top250电影图片

摘要：本次爬虫项目将会用到模块中的类，多线程豆瓣电影图片。总结通过上述两个爬虫程序的对比，我们不难发现，同样是下载豆瓣电影，个网页中的图片，在没有使用多线程的情况下，总共耗时约，而在使用多线程个线程的情况下，总共耗时约秒，效率整整提高了约倍。爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片，其网址为：https://movie.douban.com/top250，具体页面如...

shiyang6017 2019-07-30 16:52 评论0 收藏0
Python 从零开始爬虫(三)——实战：requests+BeautifulSoup实现静态爬取

摘要：前篇全片都是生硬的理论使用，今天就放个静态爬取的实例让大家体验一下的使用，了解一些背后的原理。给出网站打开右键检查第一个电影，分析源码先，发现每个标签就对应着一个电影的信息。前篇全片都是生硬的理论使用，今天就放个静态爬取的实例让大家体验一下BeautifulSoup的使用，了解一些背后的原理。顺便在这引入静态网页的概念——静态网页是指一次性加载所有内容的网页，爬虫一次请求便能得到所...

Codeing_ls 2019-07-30 16:15 评论0 收藏0
2018电影票房分析-谁才是票房之王

摘要：另外由于豆瓣上一些电影评分数量太少而不显示，所以这里的电影数量会和票房数量有所差异。月度票房将类型片的票房按月划分，得到了这张图。去年末的时候，我招收了新的实训生。本文是其中一位 @齐大圣同学在实训两个月时完成的项目案例。（码上行动群里同学应该都看过这个名字，现在也是助教之一。）项目最初的想法是，从互联网上的公开信息中采集2018年在国内上映电影的票房、评分、类型、演员等信息...

stormjun 2019-07-31 10:17 评论0 收藏0
scrapy爬取豆瓣Top250电影

摘要：这次我们爬取的内容准备步骤找到格式网页中需要爬取的数据的例如我们需要爬取图片的这里用的是不会用的同学请百度然后我们开始建立工程打开然后在你想要建立工程的目录下面输入就会自动建立一个工程然后去根目录建立一个去这个目录里建立一个注意这里的主爬虫这次我们爬取的内容 showImg(https://segmentfault.com/img/bVSirX?w=1021&h=521); 准备步骤...

codergarden 2019-07-30 14:24 评论0 收藏0