什么是好的专利检索分析平台
在我们看来,真正好的分析平台,必须解决:信息来源、信息检索、信息处理和信息呈现四大问题
一、信息来源
基础数据库、同族数据库、引文数据库、诉讼数据库、复审无效数据库、小语种专利、商业数据库要能够无缝整合并进行数据清洗、标准化、文本化、全文翻译等深加工
二、信息检索
普通的布尔逻辑检索、高准确度的语义检索、准确的相关度排序结果、中英文混合检索、中英文跨库检索。
三、信息处理
人工标引、机器标引、技术手段、技术特征、技术效果自动抓取和聚类、人工标引和机器标引结合分析、分组、透视、与或非合并运算
四、信息呈现
分析结果可视化、分析过程可视化、分析指标必须足够多,呈现方式必须恰当和美观,实现交互式可视化分析。
关于信息检索
一直以来,检全和检准,是专利检索工作的悖论。目前的经验来看,只有基于人工智能的语义检索才是检索的未来。传统的专利检索系统均是基于布尔检索,而实际上这套布尔检索同时也为专利检索带上了重重的“枷锁”,传统布尔逻辑检索,漏检几乎是必然的。。
检准和检全如何完美结合?我认为,先通过基本关键词和分类号获得“全样本”,然后通过人工智能理解检索要件并对该“全样本”进行语义相关度排序,直接提出最不相关的文献。 大家想一想,Google靠的就是pagerank算法,给出的是网页的相关度排序,而绝不是所谓布尔逻辑。专利检索为什么不能从中获得启发呢?
关于信息呈现
开源的专利分析和可视化工具Python和R可以实现非常多的分析方法。当然,Tableu和Microsoft PowerBI也提供了交互式可视化工具。使得分析过程可视化成为可能。实际上可以平台出一份力,使用者自己再出一份力。平台提供基础的,态势性的分析,分析者自己呢,则要努力去思考如何获取解决客户问题的情报,并以最直观的方式呈现出来。
其实吧,一键导出分析报告、在线生成分析图表之类的功能,也只是应付应付小白或者做一些装点门面的形式主义分析项目所需要的。老彭真的不知道为什么有的平台会把这些功能作为主要的卖点。当然,能够快速出具一些像模像样的统计图表也确实能提供一点点验证性的情报信息,这还是可以吸引一批初级用户的。
最后,我们想要说的是,真正的专利分析,必须要一篇专利、一个权利要求、一个技术特征地阅读、标引、分析。专利分析的价值在于解决实际问题。而不是弄几个花哨的图表吓唬人,这没啥用。
真正的分析,必须要找准定位,解决企业实际经营中出现的现实问题。比如:
对手究竟做到哪里了?
对手比我先进的地方在哪里?
项目到底能不能上马?
到底哪些产品会侵权?
侵了哪些专利的权?
侵权了该怎么办?
我手上有几张牌?
哪些牌可以打出去?
……