020-8288 0288

使用近红外高光谱成像仪鉴别枸杞不同产地

发布时间:2023-05-18
浏览次数:423

采用近红外 (874–1734 nm) 高光谱成像 (NIR-HSI) 技术结合化学计量学方法对来自中国宁夏、内蒙古、新疆和青海的 1200 份枸杞样品进行了溯源。研究了两种方法,称为像素方式和对象方式,以区分这些中国枸杞的来源。逐像素分类为单个枸杞的每个像素分配一个类别,通过这种方法,直观地反映了四个产地枸杞的差异。

采用近红外 (874–1734 nm) 高光谱成像 (NIR-HSI) 技术结合化学计量学方法对来自中国宁夏、内蒙古、新疆和青海的 1200 份枸杞样品进行了溯源。研究了两种方法,称为像素方式和对象方式,以区分这些中国枸杞的来源。逐像素分类为单个枸杞的每个像素分配一个类别,通过这种方法,直观地反映了四个产地枸杞的差异。使用平均光谱进行对象分类。提取高光谱图像中每个样本所有像素点的平均光谱信息作为样本的代表性光谱,然后基于这些平均光谱建立了枸杞产地的判别分析模型。具体来说,采集所有样品的光谱曲线,去除明显噪声后,将972~1609 nm的光谱视为枸杞的光谱。然后,对光谱曲线进行移动平均平滑(MA)预处理,建立基于支持向量机(SVM)、径向基函数神经网络(NN-RBF)和极限学习机(ELM)的判别分析模型。全波段光谱,分别从主成分分析(PCA)和二阶导数光谱的载荷中提取的特征波长。在这些车型中,基于PCA载荷提取特征波长的ELM模型的标定集和预测集的识别准确率均高于90%。该模型既保证了较高的识别率,又简化了模型,有利于日后的快速在线测试。结果表明,高光谱成像仪可以快速追踪枸杞的来源。

使用近红外高光谱成像仪鉴别枸杞不同产地

枸杞为茄科多分枝灌木,果实、皮、叶均可入药。更重要的是,枸杞灌木在我国内蒙古、陕西、甘肃、宁夏、青海和新疆等地广泛种植,具有优良的水土保持能力。人们普遍认为,生长环境可能会改变选定植物的化学成分和生物学特性。宁夏枸杞以果实大、外形美观、有效成分含量高、药用价值广泛等特点受到广大消费者的青睐。然而,随着近年来市场上不同产地水果的频繁混杂,宁夏枸杞的品质难以保证。多数研究认为,枸杞的产地来源可通过观察枸杞的形状和化学方法检测内部品质,但这些方法耗时长,对样品有破坏性,检测精度低。 因此,建立快速、无损、高精度的枸杞溯源方法迫在眉睫。同时,枸杞育种工作也需要这些分析方法,以获得营养和保健品质量更高、农场价值更高的改良品种,用于宁夏枸杞的商业生产。

近年来,光谱和光谱成像技术作为快速、无损的检测手段被广泛应用于农产品的产地鉴别和质量分析。基于 780-2526 nm 波长范围内电磁辐射吸收的近红外反射光谱 (NIRS) 可以在分子水平上提供有关样品成分和性质的全面结构信息。事实证明,该光谱带区域来自 CH、CO、OH 和 NH 伸缩振动的泛音。已经报道了几项研究使用 NIRS 和化学计量学方法来确定枸杞的来源和质量。(2016) 使用近红外高光谱成像仪 来评估枸杞多糖 (LBPs) 的含量。(2017) 使用傅里叶变换近红外 (FT-NIR) 光谱仪测定枸杞的总糖含量。(2016) 使用 NIRS 确定枸杞的地理来源和与来源相关的黄酮类化合物含量。(2017) 使用 NIRS 确定黑枸杞的地理来源和花青素含量。他们都得出结论,NIRS 在确定枸杞原产地和质量方面具有很高的潜力。然而,问题与这些方法有关,即样品在粉碎成粉末时会损坏,从而难以进行视觉识别。此外,虽然NIRS可以从光谱中获取样品的内部质量信息,但NIRS无法提供样品的外部空间信息。

高光谱成像仪是光谱学与数字成像的结合,同时获取物体的光谱和空间信息。近红外高光谱成像(NIR-HSI)是光谱成像的常见形式之一。它可以获得更广泛的样品内部和外部信息,从而导致更全面的分析,有助于区分枸杞的不同地理来源。通过高光谱成像系统,每幅高光谱图像的一个像素具有覆盖整个光谱范围的波长。最后,生成一个由每个波长的一系列图像组成的高光谱立方体。NIR-HSI 已成功用于鉴别某些农产品的来源和质量。(2011) 使用 NIR-HIS 检查具有不同地形复杂性的三种谷物(大麦、小麦和高粱)的单个整粒。(2016) 使用 NIR 高光谱成像对三种硬度类别的玉米粒进行分类,采用像素方式和对象方式两种方法,然而,在他们的研究中,三个类别和每个类别 20-40 个内核不足以建立稳健的判别模型并且缺少特征波长以简化模型。(2013) 利用近红外高光谱技术测量小麦的出粉率、柔软度和蔗糖含量,实现了小麦碾磨质量的可靠评价。(2013) 使用推扫式高光谱成像系统分别通过光谱和图像处理技术区分麻疯树种子的不同地理来源。很少有论文使用 NIR-HSI 对枸杞产地进行定性和定量分析。

在这项研究中,使用 NIR-HSI 技术研究了枸杞的四个地理来源。在获取枸杞的高光谱数据后,提取了所有样品的所有光谱信息。首先,采用逐像素法对不同产地的枸杞进行主成分可视化分析。然后,分析枸杞样品的平均光谱,建立支持向量机(SVM)、径向基函数神经网络(NN-RBF)和极限学习机(ELM)模型。此外,还选择了特征波长以通过主成分分析 (PCA) 和二阶导数光谱的载荷快速识别枸杞来源。

样品准备

为确保地理来源是唯一的实验变量,枸杞样品是从称为枸杞的同一物种中采集的. 在这项研究中,枸杞是从四个主要产区的当地农民那里购买的,包括中宁县(105.67°E,37.48°N,中国宁夏中卫),乌拉特前旗(108.65°E,40.72°N,巴彦淖尔市) , 中国内蒙古), 精河县 (82.88°E, 44.60°N, 博尔塔拉蒙古, 中国新疆), 都兰县 (98.08°E, 36.30°N, 海西, 中国青海). 枸杞灌木在中国的宁夏、内蒙古、新疆和青海被当地农民广泛种植。我们可以将这些枸杞作为食物,也可以对其进行研究。因此,这些位置不需要特定权限。此外,我们已确认实地研究不涉及濒危或受保护物种。单个枸杞被用作样品。从每个产区抽取样品300个,共采集样品1200个。为采用近似赋值法判定枸杞产地,宁夏为1,内蒙古为2,新疆为3,青海为4。将每个枸杞样品表面擦拭干净,样品在高光谱仪器平台上彼此分开。采集到的四种不同产地枸杞的 RGB 图像如下图所示,外观无明显差异。


缩略图

数据分析

光谱信息中存在大量冗余信息和共线信息,极大地干扰了有效光谱信息的提取。此外,丰富的光谱数据导致模型复杂,计算耗时。本研究利用主成分分析载荷(PCA载荷)和二阶导数光谱来选择特征波长,以减少冗余和共线信息的影响,简化模型并减轻计算负担。

主成分分析的载荷反映了主成分与原始波长变量之间的相关程度。主成分分析的载荷越大表明相应波长变量的重要性越大,包含的信息越多。为了通过 PCA 负载选择特征波长,确定了不同主成分 (PC) 的贡献率,然后选择分析的 PC 的累积贡献率和 PC 的数量。然后,为了确定相应PC的负载,设置阈值并根据波长负载图选择峰或谷作为特征波长。

常用的光谱预处理方法之一是导数光谱,它可以有效地突出光谱的特征信息。导数光谱用于通过选择适当的峰或谷来选择特征波长。本研究基于二阶导数光谱选择特征波长。由于噪声对导数光谱的影响很大,在选择特征波长之前,通过平滑对原始光谱进行平滑处理,以尽量减少原始光谱的噪声。

本研究首先对来自四个不同产地的枸杞全像素光谱信息进行主成分分析(PCA)可视化分析。然后,基于所有样本的平均光谱信息建立了支持向量机(SVM)、径向基函数神经网络(NN-RBF)和极限学习机(ELM)判别分析模型。

PCA是解决数据多重共线性问题、提取数据特征信息、实现数据压缩的有效算法。PCA将多个变量通过线性变换变换到一个新的坐标系中,将数据的最大方差投影到第一个坐标(第一主成分,PC1),第二大方差投影到第二个坐标(第二主成分) , PC2) 等, 以获得与变量个数相同的主成分数。本研究根据累计贡献率选取前5个主成分,并绘制得分图。通过结合得分信息和光谱变量的空间信息,可视化了主成分。

SVM是一种基于结构化风险最小化的统计学习方法。SVM通过非线性映射将样本空间映射到高维或无限维的特征空间。线性划分或回归是通过线性超平面在高维特征空间中实现的。该方法可以解决神经网络中样本少、非线性、高维等问题,克服局部极小问题。在这项研究中,选择了不同的惩罚参数(c)和核函数参数(g)以达到最高的识别率。

NN-RBF是一种3层前馈神经网络,具有训练速度快、泛化能力强和任意逼近等优点。NN-RBF学习的目的是确定隐含层神经元个数、NN-RBF函数的类别、中心和宽度,进而确定隐含层和输出层之间的权值。本研究通过将 NN-RBF 神经网络中的扩散率设置为 0.1-1 和 1-100,使模型达到最高的识别率,模型识别率最高时的扩散值为选为最佳参数。

通过设置隐藏层神经元个数,比较不同神经元节点个数的效果,得到最优解。本研究将隐藏层神经元个数从1优化到150个,步长为1,最小训练误差下的神经元个数即为ELM模型的隐藏层神经元个数。

结果与讨论

逐像素分析和分类

为了可视化四个产地枸杞的差异,对四个不同产地枸杞的全像素光谱信息进行主成分分析。本研究剔除背景和无关紧要的像素点,得到枸杞子4个位置20196个像素点的光谱信息,并进行主成分分析。确定前五个PC,并根据每个像素的分数和像素的空间分布绘制PC的分数。不同的颜色代表不同的分数。前五个主成分的累计贡献率为99.78%,解释了大部分光谱变量。在 PC1 的得分图像中,颜色分布的类型对于前两个位置和下面两个位置明显不同。在 PC2 的得分图像中,顶部位置的颜色比其余位置的颜色更暖,其余位置的颜色更冷。虽然 PC3、PC4 和 PC5 的贡献率只占总数的很小一部分,但它们包含了更多可以表征不同产地的内部信息。从他们的评分图中可以看出,不同产地的枸杞内部分布不同。在 PC3 和 PC4 的得分图像中, 不同产地的枸杞颜色分布从上到下逐渐由冷色调变为暖色调。对于PC5,不同产地的枸杞在评分图中从上到下的颜色分布由暖色调逐渐变为冷色调。由于在 PC3、PC4 和 PC5 的得分图像中更容易区分来源,因此得分分布与这三个主要成分的得分一起绘制。主成分分析的分数往往反映了样本的内在信息。虽然不同产地枸杞的分数分布图相互重叠, 同源样本更加集中, 形成不同区域。因此,虽然可以直观地反映四种产地枸杞之间的差异,但很难做到准确分类。


缩略图

前五个主成分的评分图像。颜色的变化代表了来自四个不同产地的枸杞的内部分布


缩略图

逐像素 2D PCA 得分散点图 (a) PC3 和 PC4 以及 (b) PC5 和 PC4。来自同一来源的样本更加集中,形成了四个不同的区域

对象分析和分类

不同产地枸杞的光谱特征,在对象方面的方法中,所描绘的对象(在本例中为中国枸杞)被用作数据点而不是单个像素。将每颗枸杞所有像素点的光谱反射率取平均值作为一个样品的光谱反射率,共得到1200条光谱曲线。去除光谱曲线前端和后端的噪声,选择972-1609 nm范围内经过移动平均平滑(MA)预处理的光谱进行分析。四种不同产地枸杞的平均光谱如图所示。不同产地的枸杞具有相似的光谱模式,均在大约 995、1200 和 1465 nm 处有吸收峰。995 nm附近的吸收峰归因于蛋白质或氨基酸中NH键的二次振动。1200 nm 附近的吸收峰归因于淀粉、蛋白质或脂质中 CH 键的二次伸缩振动。1465 nm 附近的吸收峰是水吸收的敏感区域 。如图所示, 四种不同产地的枸杞在972-1609 nm范围内的平均光谱显示出相似的光谱曲线和略有不同的反射率值。该特征可能是由于不同地区和气候的内部组件差异引起的。


缩略图

不同产地枸杞在 972–1609 nm 范围内的平均反射光谱。去除光谱曲线前端和后端的噪声,并用移动平均平滑(MA)对光谱进行预处理

对象方面的主成分分析。

将来自四个地理来源的1200个样本的光谱数据按照算法以2:1的比例分为校准集和预测集,每个地理来源的200个样本作为校准集来自每个地理来源的剩余 100 个样本用作预测集。对模型集的光谱数据进行主成分分析,定性分析枸杞产地鉴别。下图显示了 PC3 和 PC4 的二维分数散点图。如下图所示,来自每个地理来源的样本根据自己的特征聚类在一起,尽管分数图中仍然存在一些重叠。需要进一步分析和处理以识别枸杞的不同产地。


缩略图

来自每个地理来源的样本根据其自身的特征聚集在一起

结论

利用高光谱成像仪系统结合提取的特征波段和不同的判别分析模型对枸杞的起源进行了追溯。从枸杞的像素光谱出发,结合枸杞的空间分布,绘制了主成分伪彩色图,直观展示了四种产地枸杞的差异。从枸杞样品的角度出发,通过PCA加载和二阶导数光谱提取的全光谱和特征波长建立不同的判别分析模型。经过分析比较,基于全光谱的判别模型优于基于特征波长的判别模型。在判别分析建模方法中,ELM算法获得了最好的判别效果。基于PCA加载提取的特征波长的ELM模型不仅具有较高的识别精度,而且简化了模型,有利于快速在线检测。在今后的研究中,应尽可能多地研究枸杞的产地,以建立更稳健、范围更广的枸杞产地鉴定模型,并研究应用HSI技术检测枸杞品质的可行性。判断枸杞子是否经过人工熏制。

联系我们

Contact us
广东赛斯拜克技术有限公司
  • 地址:广州市增城区新城大道400号智能制造中心33号楼601
  • 电话:020-8288 0288   13500023589
  • 邮箱:3nh@3nh.com
  • 网址:http://www.sinespec.cn
Copyright © 2024 广东赛斯拜克技术有限公司 版权所有
  • 公司联系方式
    QQ
  • 网站首页
    首页
  • 公司联系电话
    电话
  • 返回
    返回顶部