-
Java利用hanlp完成语句相似度分析的方法详解
分享一篇 hanlp 分词工具使用的小案例,即利用 hanlp 分词工具分析两个中文语句的相似度的案例。供大家一起学习参考! 在做kaoshi系统需求时,后台题库系统提供录入题目的功能。在录入题目的时候,由于题目来源广泛,且参与录入题目的人有多位,因此容易出现录入重复题目的情况。所以需要实现语句相似度分析功能,从而筛选出重复的题目并人工处理之。 下面介绍如···
- 发布时间:2025-09-01
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
豆瓣已玩烂,来爬点有逼格的 ——IMDB 电影提升你的品位
作者:翻滚吧羊宝宝,微信号:LiuYannis 前言 转战Python半年,接触爬虫2个月,期间读了10本相关书籍,完成此作,算是对过去学习、实践的一次回顾。也希望与更多的python,爬虫爱好者小伙伴们一起交流、成长。 选此题目,一来豆瓣作为爬虫入门,各种大牛的深入分析已趋于完美;另一方面随着中国电影工业的发展,我们需要将视角转向国际市场,通过数据分析,···
- 发布时间:2025-09-01
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
还在一个个写规则?来了解下爬虫的智能化解析吧!
阅读本文大概需要 10 分钟。 爬虫是做什么的?是帮助我们来快速获取有效信息的。然而做过爬虫的人都知道,解析是个麻烦事。 比如一篇新闻吧,链接是这个:https://news.ifeng.com/c/7kQcQG2peWU,页面预览图如下: 预览图 我们需要从页面中提取出标题、发布人、发布时间、发布内容、图片等内容。一般情况下我们需要怎么办?写规则。 那么···
- 发布时间:2025-09-01
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
10分钟弄懂Raft算法
分布式系统在极大提高可用性、容错性的同时,带来了一致性问题(CAP理论)。Raft算法能够解决分布式系统环境下的一致性问题。 我们熟悉的ETCD注册中心就采用了这个算法;你现在看的这篇微信公众号文章,也是保存在基于Raft算法的高可用存储服务器中。 没有耐心看文字,就直接拉到第四章。 一、Raft算法是什么? 过去,Paxos一直是分布式协议的标准,但是P···
- 发布时间:2025-09-01
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
并发编程
在异常控制流提过,如果逻辑控制流在时间上是重叠的,那么它们就是并发的。并发出现在计算机不同层面上,编写并发程序也是程序员必不可少的技能,面试同样必问并发相关知识。 现代操作系统提供了基于三种基本的构造并发程序的方法。分别为:进程、I/O 多路复用和线程。 基于进程的并发编程方法很简单,使用我们很熟悉的fork、exec、waitpi···
- 发布时间:2025-09-01
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
Python 爬虫
--安装爬虫需要的库 C:\python37>pip install requests Collecting requests Downloading https://files.pythonhosted.org/packages/7d/e3/20f...84b/requests-2.21.0-py2.py3-none-any.whl (57kB) ···
- 发布时间:2025-09-01
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
Python基础(12):生成器
一、生成器 在 Python 中,使用了 yield 的函数被称为生成器(generator)。 跟普通函数不同的是,生成器是一个返回迭代器的函数,只能用于迭代操作,更简单点理解生成器就是一个迭代器。 在调用生成器运行的过程中,每次遇到 yield 时函数会暂停并保存当前所有的运行信息,返回yield的值。并在下一次执行 next()方法时从当前位置继续运···
- 发布时间:2025-09-01
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
改进博客园Markdown显示功能(加代码行号、显示代码所用编程语言)
博客园的markdown模式下的代码高亮功能使用的是highlight.js,没有行号和显示相应编程语言的功能,只好自己将其改造了一下(将这两种功能一并实现了)~ 先看一下效果,再详细介绍方法~ 查看博客园markdown所使用的代码高亮插件 先找到一篇markdown模式下写的文章,然后打开Chrome,依次使用 F12 -> network -&···
- 发布时间:2025-09-01
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
雷达数据传输质量分析
CTC HCT-7000E1误码&规程分析仪: 一、测试雷达数据 1、同步串口: 2、选择协议:HDLC 3、选择数据码:HEX *:Hex编码就是把一个8位的字节数据用两个十六进制数展示出来,编码时,将8位二进制码重新分组成两个4位的字节,其中一个字节的低4位是原字节的高四位,另一个字节的低4位是原数据的低4位,高4位都补0,然后输出这两个字节对···
- 发布时间:2025-09-01
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])
-
轻量级 Web 框架 Gin 结构分析
Go 语言最流行了两个轻量级 Web 框架分别是 Gin 和 Echo,这两个框架大同小异,都是插件式轻量级框架,背后都有一个开源小生态来提供各式各样的小插件,这两个框架的性能也都非常好,裸测起来跑的飞快。本节我们只讲 Gin 的实现原理和使用方法,Gin 起步比 Echo 要早,市场占有率要高一些,生态也丰富一些。goget -ugithub.com/g···
- 发布时间:2025-09-01
- 作者:益华网络
- 来源:[list:source]
- 浏览量([list:visits])
- 点赞([list:likes])