基于元器件手册的智能建库算法

记录从元器件手册PDF自动萃取表格、图片、封装图数据到EDA工具进行智能建库的相关算法效果,相关算法的应用情况

1.元器件手册PDF中的表格和图片自动识别

核心算法基于opencv轮廓检测和yolo图像检测开发

2.元器件引脚识别和定位,输出PIN_name和PIN_number

核心算法基于opencv轮廓检测、yolo图像检测、OCR技术开发

3.元器件封装图参数自动匹配和提取,输出封装图各尺寸数据

核心算法基于opencv轮廓检测、yolo图像检测、OCR技术、模板匹配开发

3.1数据提取和清洗

alt text
alt text

3.2三视图分割

alt text

3.3规则匹配和参数输出

alt text
alt text

4.应用

1.基于数据手册PDF进行数据精简、采集和建库(富士康)

项目实现了元器件手册PDF的自动萃取表格、图片、封装图数据,算法1和3贡献了关键代码

具体项目以开源PDF阅读器为基础,利用用pdfplumber库进行PDF的解析,利用opencv和yolo处理图片,利用OCR技术进行文字识别,利用pandas\openpyxl等相关库进行数据输出,从而将上述三个算法集成进产品,提供图形化操作界面。
pdf_reader

2.数据手册中Symbol符号和封装图信息的自动提取(芯和 已集成到Genesis)

项目实现了BGA,QFN,SOIC等封装Symbol信息的提取自动建库,算法2贡献了关键代码

  • 针对可编辑类PDF,使用PyMuPDF进行字符信息的提取并设计算法来还原文本结构
  • 针对不可编辑类型PDF,训练并部署YOLOX进行单行(列)检测,部署PaddleOCR提取文本信息
  • 设计过滤算法进行数据的清洗,保留有效数据
  • 设计了匹配算法进行PinName与PinNum的一对一匹配

3.PDF数据手册元器件自动建库软件

数字化工业软件联盟(DISA)大讲堂第92期视频演示链接
算法2和3贡献了元器件数据手册Symbol符号建库和封装图建库相关功能的核心代码