1. 首页
  2. 股票

大数据爬取分析数据(java爬虫爬取股票数据并分析)

一、大数据爬取分析数据

java爬虫爬取股票数据并分析

首先爬取大数据现在一般都是用python,所以你先要在linux上搭python的环境,最好是3.x的版本。

然后Python有很多爬虫的框架,比较好用,比如scrapy。

但是框架有了之后还要有一些其他的知识,比如正则表达式,因为怕下来的数据需要用正则去解析。

解析完之后要对数据清洗,这个工作python的pandas基本都能完成。

清洗完之后要入库,如果数据量不是太大的话,传统的数据库mysql什么的就可以了,如果数据量很大,还要搭Hadoop,这个就有点麻烦了,还要用sqoop。

基本流程就是这样,如果有疑问,可以在讨论。

二、java制作一个网络内容爬虫

java爬虫爬取股票数据并分析

1.你需要的不是 网络爬虫。

而只是网站抓取而已。

2 . 用 JDK 的 HttpURLConnection或者apache 的 HttpClient 组件就好了。

附件也是 资源, 只要有地址, 就可以通过
HttpURLConnection con = new HttpURLConnection (url);
conn.connect();
InputStream is = conn.getInputStream();
//这样就好了。

所有链接页面的内容如何提取 . 你需要抓取到网页之后, 对网页内的连接进行分析, 然后分别请求这些页面, 抓取这些连接内容。

如何根据日期来提取,比如某个频道下,5月1号到31号的内容。

网页抓取, 只能对页面进行抓取。

如果他有这个查询条件 并且有这个显示 1号 到31 号内容的页面,你才可以抓取到。

三、爬虫怎么爬取js动态生成的数据

java爬虫爬取股票数据并分析

我用Jsoup写爬虫,一般遇到html返回没有的内容。

但是浏览器显示有的内容。

都是分析页面的http请求日志。

分析页面JS代码来解决。

1、有些页面元素被隐藏起来了->换selector解决
2、有些数据保存在js/json对象中->截取对应的串,分析解决
3、通过api接口调用->伪造请求获得数据
还有一个终极方法
4、使用phantomjs或者casperjs这种headless浏览器

原创文章,作者:爱视财经,如若转载,请注明出处:https://www.ishizhuan.com/archives/67991.html