中国就业形势实时数据可视化 有更新!

  |   0 评论   |   0 浏览

大家好,久违了,今年春节过后终于更新了(此处应有捂脸表情)。

有认识我的朋友可能知道我过去一两年内采集了很多数据,包括不限于招聘、人口信息、气象信息、彩票开奖信息、企业工商信息等等方向,我一直在思考能用这些数据做点什么有意义的事情。

最近我决定把这些数据通过可视化的方式展现出来,今天发布的就是第一个项目《中国就业形势实时数据可视化》,点击名称可以进入页面,建议使用PC端浏览器。

1.png

下面具体介绍一下各个图形的含义

2.png

上面的职位数量和企业数量代表目前后台采集的数据数量,本数据实时更新。

3.png

地图部分显示了38个主要城市,圆圈大小使用平均工资计算,计算公式为

平均工资-3000)/系数

这样圆圈的大小区别会更加明显。
鼠标悬浮到城市上,可以显示出该城市的平均工资、中位数工资和工作机会数量(也就是采集的样本数量),工作机会越多代表该城市的招聘需求绝对值越大。

4.png

工作机会行业TOP10排行
可以看到高新产业比如电子技术/半导体/集成电路、计算机软件、制药/生物工程、互联网/电子商务占据了半壁江山。说明我国的产业升级还是很成功的,高新产业提供了大量就业岗位。
另外就是房地产、教育和服务业还是主要支柱,依旧提供了数量众多的岗位。

5.png

工作机会城市TOP10排行
可以看到传统一线城市北上广深依旧位列前四名不可动摇,众多企业聚集在这四个城市。但是我们也要看到武汉、杭州和成都这三座新一线城市正在奋起直追,这三座城市中,除杭州房价已经很高外,武汉和成都的房价还在每平米1万-2万之间,考虑到传统一线城市突破天际的房价,我认为武汉和成都不失为一个打工者目前通过奋斗还能立足的好选择。并且武汉和成都的房价我认为在未来有很大空间,值得考虑。

6.png

学历要求
我们可以看到需要大学学历的岗位在统计分布中占据统治地位(大学本科占23.6%,大学专科占52.41),由于这些年大学的疯狂扩招,大学学历从比较优势变成及格线。目前只有985和211院校才有一定优势了。
工作经验要求
工作经验分布的比较均衡,从应届毕业生至油腻的中年人,都有相应的岗位提供,说明我们的就业市场是比较充分的,就业环境是比较健康的。

7.png
工资城市TOP10排行
平均工资这里出现了与传统认知不符合的情况,首先是你找不到广州这座城市,作为传统一线城市广州的平均工资已经跌落到10名开外了。其次你发现了一些偏远城市的平均工资水平其实很高,比如说拉萨的平均工资能够达到8340之多。其实也很好理解,拉萨的样本数只有155个,代表只有155条招聘信息,并且这些招聘信息大多是政府和企事业单位发布的,这就说明当地的工作机会还是不够多,经济活动并不活跃。高工资主要还是靠高原补贴等因素影响,并不建议选择。

8.png
工资行业TOP10排行
这里基本被3个高新行业垄断,房地产、金融、互联网(软件)。考虑到房地产已经是夕阳产业,所以没什么好犹豫的,直接选择去金融行业干研发(软件工程师)就对了。

企业性质分布
民营公司占74.75%,绝对多数。从这里就能看出,提供巨量就业岗位的还是广大中小微企业。这就不难理解今年疫情中,国家给中小微企业的各种政策倾斜和税收减免,毕竟要保就业。

后记:前端代码开源,后续会放到GitHub上,项目地址为https://github.com/lxp135/graphs 可以点一波star了。后台代码就不开源了,大家需要数据的话,可以直接从前端代码中调用的接口地址获取,我并没有做权限控制,由于服务器能力有限,请适度查询。如果有需要的话,后续我可以提供接口文档。
本项目数据来源于互联网各大招聘网站。

分享一批我关注的优质公众号 有更新!

  |   0 评论   |   0 浏览

媳妇总是问我,你一天没事就抱着手机看,乐此不疲,都在看什么?

为此,我特总结一下我常看的一些公众号,都是我认为内容很有价值的,给大家分享一下。

没有把我微信关注的账号全列出来,先整理了第一批,大家如果感兴趣可以留言,我会继续整理。

国家智库

瞭望智库

微信号:zhczyj

隶属于新华社。党中央、国务院、中央军委直属智库之一。

看点:善于解读国家政策,点评国际国内形势,开拓眼界必看。

新媒体

观视频工作室

微信号:guanvideo

上海漾漾文化传播有限公司

看点:邀请了大量国内智库成员,进行国际时事解读,非常值得一看。含佬量巨大,包括不限于陈平、张维为、郑若麟、金灿荣、马前卒、丁一凡和毛克疾等学者。

八角楼上

微信号:bajiaolou99

八角楼主:“读毛选,写毛选”。

看点:作者对毛选的理解深刻,善于以毛的视角解读时事,很多观点引人深思。就是文章更新速度有点慢,推荐订阅。

远方青木

微信号:YFqingmu

“紫竹张先生”新号,原财经评论,现更多编写大众内容与新闻评论,自媒体。

看点:善于选题、讲故事和调动读者情绪,难得三观正,自媒体爆款文章创作者。每日更新一篇原创文章。

马前卒工作室

微信号:MQZstudio

一档新闻时事评论节目,微信公众号文章每日更新,还有一档视频节目《睡前消息》,在 bilibili 每周更新三次。

看点:评论尖锐时事,善于列举数据,并深挖原因始末。推荐两场演讲,非常精彩《保卫我们的现代生活》《1919年,全中国知识分子达成了一个最大的共识》

风云之声

微信号:fyvoice

科技与战略风云学会,创始人袁岚峰,以我的朋友多著称。

看点:能够深入浅出地解读前沿科学技术,把高深的科学技术用质朴的语言表达出来,中国最好的科普文章作者之一,提高科学素养必看。在 bilibili 还有一个视频专栏《科技袁人》

卢瑟经济学之安生杂谈

微信号:lusejingjixue

《卢瑟经济学》《纸牌大厦 : 卢瑟经济学之21世纪金融危机》作者。

看点:作者只点评腐朽落后的美帝国资本主义,善于隐喻与侧面描写,文章角度站在普通群众层面,不定时更新,很有意思。

宁南山

微信号:ningnanshan2017

在深圳搬砖的中产阶级,有价值的产业,经济,政经和生活内容提供者。

看点:经济大 V,经典文章《作为一个中产阶级,我对国家有哪些不满意》

赛雷三分钟

微信号:sl3min

深圳赛雷文化传媒有限公司,科普公众号。

看点:善于以漫画的形式科普各种典故、知识,点评新闻时事。其出版的漫画读物《国家是怎样炼成的》寓教于乐,很好看。

数码

笔吧评测室

微信号:bibacps

电脑笔记本评测国内首屈一指的自媒体平台,评测产品一般自行购买,不收红包的评测机构。

看点:秉持客观事实做笔记本评测,想要买笔记本的同学可以看里面的笔记本电脑选购指南栏目,作者列出了他认为值得购买的笔记本,相当于帮助大家提前筛选了。

科技美学

微信号:kejimx

数码产品评测自媒体平台,主打手机评测,目前也开始评测大量其他种类电子产品。

看点:作者身处冰城哈尔滨,其语言质朴、客观。作为东北人,我得支持一波。

Java网络爬虫教程 第二章 技术基础 有更新!

  |   0 评论   |   0 浏览

2. 技术基础

本章主要讲解爬虫需要用到的 Java 常识和一些类库等,方面初学者或者使用其他语言的同学快速上手,如果您本身会使用 Java 编程语言,那么本章可以略过不看。

2.1 开发环境

本教程选择 Java 编程语言环境,而没有使用 python。目前网上存在大量的 python 爬虫教程,而 Java 教程寥寥无几,这并不代表 Java 做爬虫不行,Java 语言拥有严谨的语法结构和海量的类库,我认为 Java 在开发爬虫方面拥有后发优势。

准备开发环境

JDK

Oracle官网下载 JDK 并安装。
本教程选择 Java SE 8 版本 jdk,您也可以自行选择更高版本,理论上都是向下兼容的。

IntelJ IDEA

开发工具我选择了 IDEA 而不是 Eclipse,从IntelJ官网下载并安装。

IDEA 比 Eclipse 好用太多,基本属于用过就回不去的感觉。但是 IDEA 是收费软件,建议如果有能力还是购买正版支持吧,学生凭借学生证可以申请正版授权免费使用,嫌麻烦还可以使用社区版(免费),或者自行破解,我在这里就不提供破解方法了。

MySQL

结构化数据存储,我们选用MySQL,版本选择5.7。之所以不选择更高版本,是因为目前绝大多数云服务器提供的版本最高就是5.7,为了保持统一,所以我们也选择5.7。

MySQL官网下载MySQL并安装。

为了方便测试和查看数据,我们还需要一个图形化的数据库编辑器。

这里选择Navicat for MySQL做为我们的图形化工具。

2.2 Java 基础

基础这节没啥意思,先不写了,列一下需要了解的知识点。

  • 类和对象
  • 常量
  • 命名规范
  • 基本语法
    • 条件判断
    • 循环
  • 数组
  • 位运算
  • 枚举
  • 比较器
  • 方法
  • 集合类
    • 动态数组:[]
    • 散列表:HashMap
  • 文件
    • 文本文件
    • 二进制文件

2.3 框架与类库

  • 常用工具集 Hutool
    Hutool 是一个小而全的 Java 工具类库,通过静态方法封装,降低相关 API 的学习成本,提高工作效率,使 Java 拥有函数式语言般的优雅,让 Java 语言也可以“甜甜的”。
    Hutool 是项目中“util”包友好的替代,它节省了开发人员对项目中公用类和公用工具方法的封装时间,使开发专注于业务,同时可以最大限度的避免封装不完善带来的 bug。
    源码地址:https://www.hutool.cn
    maven 引用:
    <!-- 一个Java工具包 http://www.hutool.cn/ -->
    <dependency>
        <groupId>cn.hutool</groupId>
        <artifactId>hutool-all</artifactId>
        <version>4.5.1</version>
    </dependency>
  • 图片处理库 thumbnailator
    thumbnailator 是谷歌出品的一个图像处理类库,可以压缩图片大小、修改尺寸、支持网络地址,便于我们采集图片并存储为统一格式,其链式赋值方式极易使用,虽然已不再维护,但是够用就好。
    源码地址:https://github.com/coobird/thumbnailator
    maven 引用:
    <!-- google图片压缩 -->
    <dependency>
        <groupId>net.coobird</groupId>
        <artifactId>thumbnailator</artifactId>
        <version>0.4.8</version>
    </dependency>

Java网络爬虫教程 有更新!

  |   0 评论   |   0 浏览

最近准备写的系列文章,先把目录列出来,一节一节慢慢写。

目录

1. 爬虫概述

1.1 前言
1.2 规则

2. 技术基础

2.1 开发环境
2.2 Java基础
2.3 框架与类库

3. 定向采集

3.1 下载网页
3.2 下载图片与文件
3.3 Selenium

4. 信息提取

4.1 xpath解析规则
4.2 图像OCR识别

5. 数据存储

6. 高级技巧

6.1 匿名代理池
6.2 Header伪装
6.3 关键字字典
6.4 抓取进度管理

7. 实战案例

7.1 国家统计局
7.2 时光网
7.3 彩票开奖信息
7.4 代理信息
7.5 前程无忧

8. 后记

2019年终总结与新年展望 有更新!

  |   0 评论   |   0 浏览

送走亥猪,喜迎子鼠。十二年又是一个轮回,在新的一年里,祝大家万事如意、心想事成!

〇、工作

2019年,是我在东软熙康稳定工作的一年,组织了五条业务线的研发工作,按照敏捷的要求制作迭代表格并每天开早会,从无任何迭代延期并能够保证交付质量。

其中在带领门诊项目研发时,面临时间紧(交付截止日期固定,研发测试上线仅不到1个月的时间)、任务重(从零开始,新UE。需要实现视频会诊、影像、高拍仪、短信、排班等等多种功能。)、人员拼凑(项目组人员从各个部门借调,彼此不熟悉,对微服务架构也不熟悉)的情况下,通过详细的前期规划、UE设计、系统设计和数据库设计避免了返工,通过前期加班抢进度保证了效率,通过封闭开发保证了沟通顺畅,通过早会与线上代码review保证了质量,最终甚至提前完成。这个项目使我的管理能力得到了提高。

2019年度绩效评价得到了A。

本年度我还参加了公司组织的高潜员工培训计划,据说公司采购课程价格不菲,其中“当责”、“沟通”等课程使我受益匪浅,我还把我学过的课程画了一张思维导图。

图比较大,点击下载高潜培训思维导图
注:建议下载到电脑上浏览,手机看的话图太小了,字看不清。

还有毕业证书,哈哈,晒一下:
高潜毕业证书mini.jpg

一、技术

技术博客在2019年重新开张了,并且从wordpress更换为b3-solo。写的文章还是太少,争取在2020年做到周更,至少也得是月更,并把Java爬虫系列教程写完。

新技术探索方面(指对我自己来说),我今年开坑了一个小程序《肉蛋菜价查查看》,目前已上线,大家在微信小程序中直接搜索就可以看到,用的是uni-app跨平台研发,uni-app是5+plus的升级换代版本,我这些年从5+plus一直用到uni-app,是做一些小型项目(APP、小程序)的首选框架,官网是https://uniapp.dcloud.io/,大家感兴趣可以看看。

今年还研究了three.js。目前能在web端读取并展示3D模型了,还可以进行一些简单的互动,这方面在国内目前应用的我感觉还比较少,只有一些网上的3D展馆,而且很多做的并不好看。
其实可以把threejs引入到web网站中落地,比如做一个3D版本的博客,菜单、导航、文章内容、其他信息等通过3D形式展现出来,应该是一种非常新颖的形式,不知道2020年能不能实现,先给自己挖个坑,哈哈。

今年还做了微信服务号的开发,仔细的研究了微信内置的X5浏览器,实现了点播与直播的播放器、语音识别、文件上传、拍照与相册调用、微信支付等大量功能,积累了丰富的代码量。

Java方面,今年继续研究SpringCloud,在gateway基础上,实现了一套API接口鉴权系统,可以自动读取工程中全部接口并持久化到数据库中,并根据类形成接口组。在后台配置appKey与appSecret。通过 appKey -> 角色 -> 接口的形式进行关联。鉴权时,客户端请求将相关鉴权信息放入到header中,gateway拦截并进行鉴权判断是否通过,对业务代码透明。

明年如果还在东软熙康工作的话,我准备研究一下医学影像存档与通讯还有PACS工具。给我们大熙康提供点高端组件,省着总集成别人家的,还不给人钱,一天天求爷爷告奶奶似的。

还有空的话,我准备写一下熙康这么多年来远程医疗的架构演进图,梳理一下技术架构。

二、生活

生活方面今年基本乏善可陈了,也没有出去旅游,没什么大的改变,除了研究技术以外,基本就是天天宅在家里打游戏看动画片而已? 。

闺女一天天健康成长,就是特长班有点贵。
目前学习了舞蹈、英语、美术、逻辑思维、口才,这一年费用得大几万……
不过也值了,还参加了2020辽宁少儿春晚朵朵童星的录制,春节期间播出~
来几张闺女美图:
微信图片20200116182447.jpg
微信图片20200116182436.jpg

舞蹈考级证书:
微信图片20200116182454.jpg

三、新年展望

希望我的闺女顺利成长,无病无灾。父母和老婆都健健康康,开开心心。