使用Java进行中小学违规教育培训数据采集实践-以某城市为例

CSDN 2024-09-02 11:35:01 阅读 75

目录

前言

一、违规教育信息

1、内容管理 

2、转换后的内容

二、数据库设计

1、空间数据库

三、字符地址位置转换空间信息

1、实现时序图

2、后台实体类的设计与实现

3、数据持久化操作

 四、总结


前言

        时间来到2024年8月24日,时间过得很快,2024年的暑假即将结束。神兽们该归笼了,各位家长们又是辛苦的照顾两个月。在这两个月的时间中,大家一定参加过不少的教育培训,中学的也好,小学的也好。一定有很多的家长在给家里的小朋友找了很多机构进行培训。先不说培训机构的培训能力怎么样,相信大家一定很关注哪些是违规培训。以博主所在的城市为例,关于违规培训有以下的定义:

凡是在周末、寒暑假、节假日开展义务教育学科培训的机构(个人)均为违规培训;凡是没有办学许可证的开展校外培训的机构均为违规培训机构。校外培训机构一次性不得收取超过三个月或60个课时的费用,非学科类培训机构一次性收费不得超过5000元。请广大家长知晓,如遇到违规培训或者违规收费,可以进行投诉举报。

        根据市教育局的通知和工作要求,在今年整个暑假期间,监管不松懈!暑假以来,全市各区县(市)共出动多次,拆除违规广告牌若干处,下发停办或者整改通知书若干份。共查处违规培训行为,其中隐形变异学科培训25起,无证非学科类培训14起,有证机构违规办学2起。希望我们广大的家长在挑选培训机构的时候,可以选择正规的机构,不仅保证我们的培训质量,同时还可能引起财产的损失。

        作为一名地理信息从业者,我们可以将这些违规商家的信息搜集起来,可以整理成一个信息的黄页,在家长需要进行信息查询的时候,就知道这些机构是需要注意的。这也是为人民服务了,当然,有教育需求的地方才会有较多的培训结构。因此,通过我们的地址编码,将地名地址转换成空间位置,我们进而可以分析出,该城市的教培空间分布模式,掌握教育分布情况。也可以优化相应的教育配套,引导更优质的教育培训机构入驻,为家长和学生提供优质的教育需求。

        本文以Java语言为例,将市教育局发布的违规培训名单进行集中采集,将数据集中存储。可以将这些数据进行统一分析,为下一步的空间分析和使用分布模型的建立,甚至后续的空间图谱构建奠定一个坚实的基础。通过本文,您将掌握如何进行数据的高效写入,同时进行地理编码的转换,以及相关空间表的设计。

一、违规教育信息

        首先我们来介绍一下市教育局公布的违规教育信息,这里的数据来源于长沙晚报掌上长沙,41起!长沙通报暑期第二批违规培训名单。大家可以看到这是8月7日公布的一个名单。

1、内容管理 

        上面的表格仅展示了隐形变异学科培训列表,在表格中包含了机构名称、机构地址、备注信息等重要信息。请注意,上面的信息是存储在图片的表格中,因此我们不能直接的使用抓取工具来进行的获取。当然,在上面这种信息量不是很多的情况下,我们可以直接进行人工手动录入,毕竟数据量也是有限。本文呢,暂时用这种手工处理的模式。更加智能的方式是进行OCR识别,当然这里的OCR识别,需要识别出表格,而不是按照文本的顺序按空格输出,这样拿到的数据也是不符合需要的。要实现这种表格的识别,得加上OpenCV等组件进行学习或者深度学习来识别表格外框,再结合COR的外框来进行精准识别。关于利用OpenCV来进行表格识别的内容,暂且不表。

2、转换后的内容

        在明确数据的采集之后,我们可以利用微信或者一些在线工具,把下载的图片进行在线识别,将数据转换成Excel,也可以一行行的录入相关数据。最后可以得到下面的Excel表格。

序号 名称 地址 备注 时间 类型 来源
1 唐* 湘江新区奥克斯中央公馆9栋308房 2024-08-07 隐形变异学科培训 长沙晚报
2 王*源 湘江新区水岸御园12栋3001 2024-08-07 隐形变异学科培训 长沙晚报
3 宏科教育(郑**) 湘江新区长房时代城5栋1001、1005 2024-08-07 隐形变异学科培训 长沙晚报
4 刘*爱 湘江新区合能璞丽10栋204、205 2024-08-07 隐形变异学科培训 长沙晚报
5 100分之道(丁*) 湘江新区金茂悦商铺10-114 2024-08-07 隐形变异学科培训 长沙晚报
6 宏科教育(郑**) 湘江新区钰龙一期1栋1单元1502 2024-08-07 隐形变异学科培训 长沙晚报
7 幸福成长教育(聂*) 湘江新区德润园商业街9栋2楼 2024-08-07 隐形变异学科培训 长沙晚报
8 尹*骥 湘江新区望月湖小区9片17栋1单元104 2024-08-07 隐形变异学科培训 长沙晚报
9 彭* 芙蓉区芙蓉路中隆国际大厦905号 2024-08-07 隐形变异学科培训 长沙晚报
10 华斯优学(吴**) 芙蓉区荷花园街道蔚蓝天空大厦6楼左侧 以托管机构名义变相开展学科培训 2024-08-07 隐形变异学科培训 长沙晚报
11 尹*妮 芙蓉区荷花园街道蔚蓝天空大厦6楼左侧 个人租用华斯优学场地变相开展学科培训 2024-08-07 隐形变异学科培训 长沙晚报
12 刘*艳 天心区君尚嘉筑2栋903 2024-08-07 隐形变异学科培训 长沙晚报
13 陈*杰 天心区汇金国际银座509 2024-08-07 隐形变异学科培训 长沙晚报
14 廖* 天心区汇金国际银座2710 2024-08-07 隐形变异学科培训 长沙晚报
15 慧眼物理(王*) 开福区伍家岭街道红色商贸城E4栋二楼左边户 2024-08-07 隐形变异学科培训 长沙晚报
16 无名 雨花区侯家塘街道东尚一品A栋1502房 2024-08-07 隐形变异学科培训 长沙晚报
17 陆*雄 雨花区左家塘街道鸿铭中心K座501、502 2024-08-07 隐形变异学科培训 长沙晚报
18 闪光教育(李*) 雨花区洞井街道鄱阳佳郡3栋1单元302、502房 2024-08-07 隐形变异学科培训 长沙晚报
19 莘莘教育(匡**) 雨花区井湾子街道万科金色麦田3栋1604-1605室 2024-08-07 隐形变异学科培训 长沙晚报
20 尹*里 雨花区井湾子街道万科金色麦田3栋1609-1610室 2024-08-07 隐形变异学科培训 长沙晚报
21 长沙瀚铭智能科技有限公司 雨花区井湾子街道号万科金色麦田商业4栋221房 组织介绍上门家教变相开展学科培训 2024-08-07 隐形变异学科培训 长沙晚报
22 李*民 浏阳市葛家镇葛家园村台上组11号一楼 2024-08-07 隐形变异学科培训 长沙晚报
23 余* 浏阳市荷花街道新月半岛E2栋2单元103A 2024-08-07 隐形变异学科培训 长沙晚报
24 胡*雨 浏阳市永安镇永新村桂花苑5栋5楼 2024-08-07 隐形变异学科培训 长沙晚报
25 黄*平 浏阳市集里街道东方新天地B栋一单元1003室 2024-08-07 隐形变异学科培训 长沙晚报
26 准者联盟少儿篮球培训(龚*) 湘江新区枫林三路741号骑龙花园 2024-08-07 无证非学科类培训 长沙晚报
27 青蒙艺术(郭**) 湘江新区金山桥街道元拓秀街S5栋324 2024-08-07 无证非学科类培训 长沙晚报
28 湖南全华体育发展有限公司 芙蓉区东岸街道天园假日小区羽毛球馆三楼 2024-08-07 无证非学科类培训 长沙晚报
29 劲狮学堂(刘*) 开福区四方坪街道左岸春天会所一楼 2024-08-07 无证非学科类培训 长沙晚报
30 柯科书画(高*) 开福区四方坪街道万富汇银座1324室 2024-08-07 无证非学科类培训 长沙晚报
31 菲菲舞蹈(龙**) 开福区青竹湖街道水映加州运动会所2楼 2024-08-07 无证非学科类培训 长沙晚报
32 长沙雅田教育咨询有限公司 开福区芙蓉北路街道芙蓉北路和凤亭路交汇处西南角 2024-08-07 无证非学科类培训 长沙晚报
33 美美希舞蹈(蔡*) 开福区芙蓉北路街道富湾际5栋2001室 2024-08-07 无证非学科类培训 长沙晚报
34 mozare琴行(黄*) 开福区洪山街道恒大雅苑7-9栋120-121 2024-08-07 无证非学科类培训 长沙晚报
35 优优钢琴(庞*) 开福区洪山街道月湖兰庭5栋2单元16楼 2024-08-07 无证非学科类培训 长沙晚报
36 长沙市雨花区半音阶乐器经营部 雨花区古曲南路199号花中城20-106 2024-08-07 无证非学科类培训 长沙晚报
37 长沙县星沙晨艺希工艺美术品店 长沙县星沙街道开元东路深业睿城三期G3栋13楼 2024-08-07 无证非学科类培训 长沙晚报
38 长沙县墨绿红画室 长沙县泉塘街道康桥长郡1栋201 2024-08-07 无证非学科类培训 长沙晚报
39 彭* 浏阳市葛家镇葛家园村马家湾137号二楼 2024-08-07 无证非学科类培训 长沙晚报
40 浏阳市优而尚学培训学校 浏阳市优而尚学培训学校 高中学科类培训机构超范围对义务教育学生进行学科类培训 2024-08-07 有证机构违规办学 长沙晚报
41 浏阳市快乐嘟嘟培训中心有限公司 浏阳市快乐嘟嘟培训中心有限公司 非学科类培训机构超范围对义务教育学生进行学科培训 2024-08-07 有证机构违规办学 长沙晚报

        在拿到上面的数据之后,我们就可以实现相关的数据存储,为了在下一步进行空间热力图和空间分布的查看,我们需要将这些拿到的中文地址转换成经纬度坐标,然后存储到数据库中。

二、数据库设计

        在明确了元数据的各项指标之后,我们就可以进行存储的表设计,这里我们采用PostGIS来存储,将直接存储上面采集到的元数据信息,同时还会调用天地图的相关接口,实现地理编码的解析以及空间信息的存储。因此本小节来讲一下数据库的设计。

1、空间数据库

这是上述业务表的字段信息,其DDL语句和索引的设定如下SQL所示,大家可以直接复制使用:

<code>CREATE TABLE "public"."biz_violation_training" (

"id" int8 NOT NULL,

"name" varchar(255) COLLATE "pg_catalog"."default" NOT NULL,

"address" varchar(512) COLLATE "pg_catalog"."default" NOT NULL,

"remark" varchar(255) COLLATE "pg_catalog"."default",

"publish_date" timestamp(6) NOT NULL,

"type" varchar(128) COLLATE "pg_catalog"."default",

"source" varchar(64) COLLATE "pg_catalog"."default",

"lat" varchar(32) COLLATE "pg_catalog"."default",

"lon" varchar(32) COLLATE "pg_catalog"."default",

"geom" "public"."geometry",

"create_by" int8,

"create_time" timestamp(6),

"update_by" int8,

"update_time" timestamp(6),

CONSTRAINT "pk_biz_violation_training" PRIMARY KEY ("id")

);

CREATE INDEX "idx_biz_violation_training_sour" ON "public"."biz_violation_training" USING btree (

"source" COLLATE "pg_catalog"."default" "pg_catalog"."text_ops" ASC NULLS LAST

);

CREATE INDEX "idx_biz_violation_training_type" ON "public"."biz_violation_training" USING btree (

"type" COLLATE "pg_catalog"."default" "pg_catalog"."text_ops" ASC NULLS LAST

);

CREATE INDEX "idx_biz_violation_traning_geom" ON "public"."biz_violation_training" USING gist (

"geom" "public"."gist_geometry_ops_2d"

);

COMMENT ON COLUMN "public"."biz_violation_training"."id" IS '主键';

COMMENT ON COLUMN "public"."biz_violation_training"."name" IS '机构名称';

COMMENT ON COLUMN "public"."biz_violation_training"."address" IS '地址';

COMMENT ON COLUMN "public"."biz_violation_training"."remark" IS '备注';

COMMENT ON COLUMN "public"."biz_violation_training"."publish_date" IS '发布时间';

COMMENT ON COLUMN "public"."biz_violation_training"."type" IS '类型';

COMMENT ON COLUMN "public"."biz_violation_training"."source" IS '来源';

COMMENT ON COLUMN "public"."biz_violation_training"."lat" IS '纬度';

COMMENT ON COLUMN "public"."biz_violation_training"."lon" IS '经度';

COMMENT ON COLUMN "public"."biz_violation_training"."geom" IS '位置';

COMMENT ON COLUMN "public"."biz_violation_training"."create_by" IS '创建人';

COMMENT ON COLUMN "public"."biz_violation_training"."create_time" IS '创建时间';

COMMENT ON COLUMN "public"."biz_violation_training"."update_by" IS '更新人';

COMMENT ON COLUMN "public"."biz_violation_training"."update_time" IS '更新时间';

三、字符地址位置转换空间信息

        在了解数据源,还有空间数据表的相关设计之后,我们要实现从Excel数据表中,将信息表格提取出来,然后调用天地图的API接口将地址转换成坐标,最后见Geometry信息,从而实现信息的保存。

1、实现时序图

        下面使用转换时序图来重点讲解一下真个过程是如何实现。首先讲解时序图,然后将给出重点步骤的代码实现。

 1.1、首先使用java的file对象将Excel表格读取到内存中,等待处理。

 1.2、使用ExcelUtil来进行数据的读取。

 1.3、实际将表格导入的内存中,然后将结果转为List。

 1.4、将地名地址信息发送给后台,将地名地址传给天地图。

 1.5、将点地图返回的数据进行JSON解析,转换为Java对象,从而获取Location等地址信息。

 1.6、根据返回的地址信息构建Geometry的字段信息。

 1.7、将Excel表格中的数据进行重新赋值。

 1.8、将数据进行批量插入到数据库中。

 1.9、完成。

        以上就是大致的处理的流程。

2、后台实体类的设计与实现

        后台实体类的模型设计很重要,为了在数据中可以直观的看到经纬度信息,因此在数据库表格中设计两个字段,用来存储经纬度信息。

<code>package com.yelang.project.education.domain;

import java.io.Serializable;

import java.util.Date;

import com.baomidou.mybatisplus.annotation.TableField;

import com.baomidou.mybatisplus.annotation.TableId;

import com.baomidou.mybatisplus.annotation.TableName;

import com.yelang.framework.aspectj.lang.annotation.Excel;

import com.yelang.framework.handler.PgGeometryTypeHandler;

import com.yelang.framework.web.domain.BaseEntity;

import lombok.AllArgsConstructor;

import lombok.Getter;

import lombok.NoArgsConstructor;

import lombok.Setter;

import lombok.ToString;

/**

* 违规办学培训实体类

* @author 夜郎king

*/

@TableName(value ="biz_violation_training",autoResultMap = true)

@NoArgsConstructor

@AllArgsConstructor

@Setter

@Getter

@ToString

public class ViolationTraining extends BaseEntity implements Serializable{

private static final long serialVersionUID = 879828674200308872L;

@TableId(value="id")code>

private Long id;

@Excel(name = "序号")

@TableField(exist = false)

private String index;

@Excel(name = "名称")

private String name;

@Excel(name = "地址")

private String address;

@Excel(name = "备注")

private String remark;

@Excel(name = "时间",dateFormat = "yyyy-MM-dd")

@TableField(value= "publish_date")

private Date date;

@Excel(name = "类型")

private String type;

@Excel(name = "来源")

private String source;

private String lat;//经度

private String lon;//纬度

@TableField(typeHandler = PgGeometryTypeHandler.class)

private String geom;

@TableField(exist=false)

private String geomJson;

}

3、数据持久化操作

        定义好数据表结构和实体类代码后,我们要将数据进行持久化。这里持久化使用开源的Mybatis-plus操作。同时需要注意的是,在进行数据插入的时候,有自己来主动构建空间信息。

/**

* 读取excel信息

*/

@Test

public void readExcelData() {

try {

File file = new File("C:/Users/Administrator/Desktop/违规培训.xlsx");

FileInputStream fis = new FileInputStream(file);

ExcelUtil<ViolationTraining> util = new ExcelUtil<ViolationTraining>(ViolationTraining.class);

List<ViolationTraining> dataList = util.importExcel(fis);

for(ViolationTraining base : dataList) {

TdtAddressInfo info = this.GetLocationByTDT(base.getAddress());

System.out.println(info);

System.out.println("******************************************************");

if(null != info.getLocation()) {

String lat = String.valueOf(info.getLocation().getLat());

String lon = String.valueOf(info.getLocation().getLon());

base.setLat(lat);

base.setLon(lon);

String geom = "SRID=" + 4326 +";POINT (" + lon+ " " + lat + ")";//拼接srid,实现动态写入code>

base.setGeom(geom);

}

Thread.sleep(3500);

}

if(dataList.size() > 0) {

vtService.saveBatch(dataList, 200);

}

} catch (FileNotFoundException e) {

e.printStackTrace();

} catch (Exception e) {

e.printStackTrace();

}

}

        这里需要注意的话,为了保证不让天地图的后台进行访问限制,我们将每次访问后将暂停3.5秒钟。执行上述的代码后可以看到控制台在输出以下信息:

ViolationTraining(id=null, index=9, name=彭*, address=芙蓉区芙蓉路中隆国际大厦905号, remark=, date=Wed Aug 07 00:00:00 CST 2024, type=隐形变异学科培训, source=长沙晚报, lat=null, lon=null, geom=null, geomJson=null)

https://api.tianditu.gov.cn/geocoder?ds=%7B'keyWord':'芙蓉区芙蓉路中隆国际大厦905号'%7D&tk=473af7dc18cafb6b993616a0ce8e1ead

TdtAddressInfo(msg=ok, status=0, searchVersion=6.4.9V, location=TdtLocation(lon=112.97597, lat=28.19909, level=兴趣点, typeRound=null, score=76.0))

*************************************************************

ViolationTraining(id=null, index=10, name=华斯优学(吴**), address=芙蓉区荷花园街道蔚蓝天空大厦6楼左侧, remark=以托管机构名义变相开展学科培训, date=Wed Aug 07 00:00:00 CST 2024, type=隐形变异学科培训, source=长沙晚报, lat=null, lon=null, geom=null, geomJson=null)

https://api.tianditu.gov.cn/geocoder?ds=%7B'keyWord':'芙蓉区荷花园街道蔚蓝天空大厦6楼左侧'%7D&tk=473af7dc18cafb6b993616a0ce8e1ead

TdtAddressInfo(msg=ok, status=0, searchVersion=6.4.9V, location=TdtLocation(lon=113.015237, lat=28.201385, level=乡镇街道, typeRound=null, score=50.0))

*************************************************************

ViolationTraining(id=null, index=11, name=尹*妮, address=芙蓉区荷花园街道蔚蓝天空大厦6楼左侧, remark=个人租用华斯优学场地变相开展学科培训, date=Wed Aug 07 00:00:00 CST 2024, type=隐形变异学科培训, source=长沙晚报, lat=null, lon=null, geom=null, geomJson=null)

https://api.tianditu.gov.cn/geocoder?ds=%7B'keyWord':'芙蓉区荷花园街道蔚蓝天空大厦6楼左侧'%7D&tk=473af7dc18cafb6b993616a0ce8e1ead

TdtAddressInfo(msg=ok, status=0, searchVersion=6.4.9V, location=TdtLocation(lon=113.015237, lat=28.201385, level=乡镇街道, typeRound=null, score=50.0))

*************************************************************

        说明已经顺利的从后台获取相关信息,程序运行正常。

        最后,我们在数据库中来看一下数据是否已经成功持久化了。执行以下的sql语句:

<code>select * from biz_violation_training;

         这样可以客户端可以看到以下的执行结果:

        到此,说明我们已经成功的把Excel转换成空间数据并持久化到PostGIS中。

 四、总结

        本文以Java语言为例,将市教育局发布的违规培训名单进行集中采集,将数据集中存储。可以将这些数据进行统一分析,为下一步的空间分析和使用分布模型的建立,甚至后续的空间图谱构建奠定一个坚实的基础。通过本文,您将掌握如何进行数据的高效写入,同时进行地理编码的转换,以及相关空间表的设计。行文仓促,难免有许多的不足之处,针对不足,恳请各位专家朋友在评论区批评指正,不胜感激。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。