Mac 软件清单
网站类目爬取技巧
网站类目爬取技巧
我们在爬取网站的时候,经常因为找不到类目入口需要人工整理类目元数据,再输入到爬虫程序里面,这边介绍的方法目前有两种,1. 获取 JS 对象里面的数据,2. 通过 url 分析,后续在补充
JS 对象里面包含的数据
以京东手机触屏版为例, 打开首页类目的页面
https://so.m.jd.com/webportal/channel/m_category?searchFrom=bysearchbox
我们分析的 JS 的事件 event 都在 document 文件内部,所有我们我们将 html 文件下载到本地并格式化
这个 JS 的文档就是我们想要的数据
1 | # 这样也可以导出JS对象成Json数组 |
通过获取类目 URL
这些原理都是很简单,首先都是要选择
元素,然后观察
事件的 event,分析 JS 代码
Linux 常用脚本
这段脚本包含100多个bash函数,是我几年前方便自己调试和诊断问题写的。贴出来给有需要的人,因为比较懒怎么使用这些函数就不写说明了。其中以下划线开头的是表示私有函数,以
原文:http://hongjiang.info/
cf_
开头的表示公共函数,可当做命令使用。原文:http://hongjiang.info/
1 | # check current os is linux |
树莓派使用技巧
使用指南
- 初次安装树莓派可以准备一根网线,以便方便连接进入 ssh
- 树莓派的镜像版本默认是没有开启 ssh 的,若想开启,在
boot
下创建ssh
文件夹即可 - 初次使用网线进行连接时,可以将树莓派设置成静态 ip,在
cmdline.txt
文件里面加入ip=x.x.x.x
- 无线连接在
boot
下创建wpa_supplicant.conf
文件,会映射到/etc
下面,以便配置你的无线连接
1 | network={ |
Hbase rest api
Hbase Rest API
Hbase Rest 服务默认是不启动的
Hbase Rest 服务默认是不启动的
1 | # 前台启动 |
使用Hive正确导出csv的姿势
使用Hive导出csv
大家在导出csv后,使用Excel大家文件的时候,会遇到这样的问题,文件的存在少量串行的数据,虽然不影响整体数据,但是有的时候遇到高精度计算的过程中,还是难免有些尴尬😅
- 导出的时候进行转义
- 导出的时候使用其他格式,在Excel中使用 数据->文件->自文本导入 使用自定义格式导入
- 使用Hive序列化导入,会自动规整格式
1
2
3
4
5
6
7
8
9
10
11
12
13CREATE TABLE wys.wys_output
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = ",",
"quoteChar" = "\"",
"escapeChar" = "\""
)
STORED AS TEXTFILE
as select
distinct
a,
b
from xxx;
Excel中csv格式中会出现\n 使用rtrim和ltrim可以去除,每一列数据都是以"
分割数据,但是在数据出现"
号的话就会导致数据串行,此时我们可以使用""
来代表那是数据中双引号
Spark Shuffle总结
百度高级搜索
测试加密文档
查看这个博客请数据密码 wissy