?

基于深度學習的單視圖古文物三維重建和復原技術研究

2024-04-24 05:23張潔陶興發楊毅林嘉欣胡偉

客聯 2024年1期

關鍵詞：體素三維重建深度學習

張潔陶興發楊毅林嘉欣胡偉

摘要：古文物是人類文明和歷史文化的重要載體，對研究古代經濟和文明至關重要。與傳統的三維重建方式不同，基于深度學習的單視圖三維重建技術可以避免復雜的圖像處理，具有重要意義。本項目在古文物數據集的基礎之上，使用"編碼器-解碼器-優化器"的整體網絡結構解決現有重建算法精度不足的缺陷，且在編碼器層面上實現了2D-高階模塊，利用2D-高階模塊解決了目前特征提取算法能力不足的問題。此外，本項目通過引入一個全局上下文模塊和空間細節增強模塊，使系統更有效地處理模糊圖像，并增強特定位置的細節，而且能夠有效地消除圖像模糊并恢復圖像的細節，達到圖像復原的效果。

關鍵詞：三維重建;深度學習;單視圖;體素;數字復原

中圖分類號：TP242.6? ? 文獻標識碼：A

文物古跡承載著豐富的歷史信息和文化遺產，記錄了人類社會發展的歷程和文明的演進，隨著文物出土量的增加，開展文物保護工作迫在眉睫。通過對文物古跡進行重建與復原工作，使其在數字空間中得以再現不僅是一種保存文物數據的方法，也是展示人類文明的有效途徑。相較于傳統的單視圖古文物三維重建和復原方式，基于深度學習的單視圖古文物三維重建和復原方式對數據量需求更低，對復雜場景的適應性更強，且進行三維重建和復原時擁有更高的精度和效率。因此，研究基于深度學習的單視圖古文物三維重建和復原技術具有深遠意義。

一、系統結構

本系統采用前后端分離的架構，實現了用戶輸入圖像后的三維模型生成。前端接收用戶的圖像輸入并傳輸給后端模型，后端利用基于單視圖的深度學習三維重建和復原模型進行操作，生成體素模型，并將其傳輸回前端頁面，使用戶能夠獲取相應的體素三維模型。這種前后端分離系統無需用戶進行其他操作，實現了完整的功能。

系統的前端頁面使用JavaScript、elementUI等技術實現，后端使用Python結合Django進行前后端的結合，同時使用Unity3D處理模型的紋理等任務。通過編解碼格式轉換，實現了數據的前后端解析和傳輸等任務。系統架構如圖1所示。

（一）文物數字重建與復原系統

1.基于深度學習的卷積神經網絡和數據集。（1）VGGNet神經網絡。為了增加網絡深度而避免退化問題，本系統采用了VGGNet神經網絡。VGG-16和VGG-19是目前最常用的兩個版本，其區別在于網絡深度。這兩種結構都使用了一組2×2池化卷積與多組3×3卷積，利用單分支結構實現深度增加，有效緩解參數量增加的問題。通過堆疊3×3卷積來替代更高維度的卷積層，能夠有效減少參數數量和內存占用，提高訓練速度[1]。

（2）.全局上下文（GC）塊。引入GC塊是對卷積層的補充，將全局信息與局部信息融合，以便模型更好地消除圖像模糊并恢復幾何和紋理特征。對于生成網絡，全局感受野意味著覆蓋整個空間維度的長距離依賴關系，有助于去除模糊并復原清晰的形狀輪廓結構。本項目將GC塊插入殘差塊中，形成全局感知殘差塊（GA-RB），實現全局信息和局部信息更好地結合，使得特征在空間維度上進行壓縮與恢復，類似于編碼器-解碼器結構[2]。

（3）.基于深度學習的單視圖三維重建數據集。ShapeNet數據集是計算機視覺領域中常用的數據集之一。ShapeNet提供了多種表示形式，如點云、體素和網格等。再者，大部分三維模型在ShapeNet數據集中經過了專業研究人員的分類處理，并添加了語義注釋，例如幾何信息、模型分辨率和類別標簽等。

2.整體三維重建算法設計。該項目的三維重建算法包括編碼器、解碼器和優化器三個模塊。編碼器采用2D-repVGG網絡，解碼器使用3D反卷積神經網絡處理特征圖，生成初始的三維體素模型，隨后輸入上下文感知融合模塊中。該模塊能夠為每個初始模型生成分數表，根據部分的權重進行加權求和，從而在特定位置進行高質量的重建，最終形成融合的三維體素模型[3]。圖2為整體三維重建算法結構圖。

3.古文物圖像復原算法設計

本項目選擇使用在圖像生成領域效果較好的生成對抗網絡模型，且在此網絡模型的基礎上進行改進，形成了全局感知生成對抗網絡（GA-GAN）。在模糊圖像復原領域，生成器的性能很大程度上決定了復原效果，對比傳統的生成對抗網絡模型，該網絡模型在生成器網絡上進行了改良和創新，通過引入全局上下文模塊，實現了捕捉整幅圖像的全局信息的能力，使生成器可以處理具有模糊效果的全局圖像。通過引入空間細節增強模塊，增強模型對細節的關注，使生成器輸出的圖像細節更加清晰明了。此外，生成器網絡中還引入了全局殘差學習的方式，進一步提高了生成圖像的質量。隨后，我們將生成器輸出的復原圖像和對應的清晰圖像分別輸入判別器，判別器對輸入圖像的類別進行判斷。經過對抗訓練，GA-GAN模型能夠生成較高質量的去模糊圖像[4]。

（二）系統數據與功能實現

1.實驗數據。為驗證模型的高效性，實驗將2D-RepVGG與現有的幾種基于深度學習的三維重建網絡如3D-R2N2、Pix2Vox從訓練時間和內存占用兩個方面進行對比。數據集選用ShapeNet數據集，IoU作為評估指標，2D-高階模塊通道數選取16×channel，實驗結果如表1所示。

由表1可看出，在訓練速度方面，2D-RepVGG和Pix2Vox明顯高于3D-R2N2，而由于2D-RepVGG增加了2D-高階模塊進行深度特征提取等操作，在內存占用率和訓練速度方面的優勢略低于Pix2Vox。

為驗證模型在重建精度上的體現，實驗將2D-RepVGG與深度學習的三維重建網絡3D-R2N2、Pix2Vox、OGN網絡進行對比。數據集選用ShapeNet數據集，IoU作為評估指標，實驗結果如表2所示。

表2 三維重建算法在ShapeNet數據集上的結果對比

由表2可看出，2D-RepVGG網絡在ShapeNet數據集上就重建精度而言較Pix2Vox性能更好。

為驗證GA-GAN方法的優越性，實驗將GA-GAN方法與DeepDeblur、DeblurGAN、DeblurGAN-v2這三種端到端的方法進行對比。數據集選用GOPORO數據集，PSNR和SSIM作為評估指標，實驗結果如表3所示。

由表3可知，與上述三種方法相比，GA-GAN方法擁有更優越的性能。

2.系統功能實現

該系統分為前端和后端兩個部分。前端實現了圖片上傳、預覽和展示三維體素模型的功能，采用了JavaScript、elementUI等技術。用戶上傳圖片后，系統自動轉換為base64編碼展示在前端頁面，生成模型時通過ajax傳輸至后端進行三維重建和復原，再由Unity3D添加紋理，最后傳輸至前端展示。后端利用Python、Django等技術，接收前端上傳的圖片數據，經過神經網絡模型進行三維體素重建和復原，最終通過Django實現前后端交互，完成數據傳輸流程。

二、技術路線

該項目在已有的古文物數據集的基礎上，采用2D-高階模塊的方法，該方法應用于編碼器層，通過使用恒等鏈接和1×1卷積擴充通道的方式實現2D-高階模塊。通過引入此模塊，使得系統在特征提取方面具有更強的能力。

此外，該項目使用2D-RepVGG網絡架構，解決了由特征提取網絡過深引起的過擬合問題。同時，該方法采用重參數化的方式替代了多分支結構，以提升整體網絡性能。在編碼器中，使用這種網絡結構可以提高圖像特征提取的效果，從而提高神經網絡的準確性。

在以上研究的基礎上，該項目采用了以“編碼器-解碼器”為結構的重建方法。項目使用基于全局感知的生成對抗網絡來進行模糊圖像復原。研究工作主要集中在GAN模型的結構設計和上下文建模方面，使生成器能夠同時學習模糊圖像中的局部和全局上下文信息。此外，項目還設計了一個空間細節增強模塊，用于學習重要空間位置的信息。針對各個模型的訓練，對參數設置和實驗環境進行了配置。

根據以上的技術路線，該項目旨在設計一個基于深度學習的單視圖古文物三維重建和復原系統。技術路線流程圖如圖3所示。通過該系統，可以實現對古文物的三維重建和復原，為文物保護和研究提供支持。

三、結論

基于以上研究成果，本項目開發了一個基于深度學習的單視圖古文物三維重建和復原系統。該系統具備圖片上傳、三維重建與復原和數據下載等功能。用戶上傳圖片后，系統能夠自動進行圖像檢測，并生成相應的三維體素模型，以滿足用戶的輸入條件。實驗證明，該系統在整體性能和功能執行方面表現出高效可靠的特點，所有功能均得到正確執行。本項目將在文化遺產保護、教育研究、展示交流和修復等領域發揮重要的作用，為傳承與弘揚人類文明做出貢獻。

參考文獻：

[1]葉成慶.基于單視圖和深度學習的古文物三維重建技術研究[D].重慶郵電大學，2022.DOI：10.27675/d.cnki.gcydx.2022.000545.

[2]朱文球，雷源毅等.融合全局上下文注意力的遙感圖像檢測方法[J].兵器裝備工程學報，2024，45（02）：278-283.

[3]楊碩.基于深度學習的三維重建算法的研究與實現[D].貴州師范大學，2022（12）.

[4]王鵬.基于深度學習的模糊圖像復原算法研究.2021.北京交通大學，MA thesis.doi：10.26944/d.cnki.gbfju.2021.002161.

猜你喜歡

體素三維重建深度學習

基于多級細分的彩色模型表面體素化算法

計算機集成制造系統(2022年11期)2022-12-05

瘦體素決定肥瘦

家庭醫學(2022年3期)2022-04-07

運用邊界狀態約束的表面體素加密細分算法

計算機集成制造系統(2020年4期)2020-05-08

基于Mimics的CT三維重建應用分析

軟件(2020年3期)2020-04-20

基于體素格尺度不變特征變換的快速點云配準方法

中國慣性技術學報(2019年1期)2019-05-21

MOOC與翻轉課堂融合的深度學習場域建構

新教育時代·教師版(2016年23期)2016-12-06

大數據技術在反恐怖主義中的應用展望

法制與社會(2016年32期)2016-12-01

深度學習算法應用于巖石圖像處理的可行性研究

軟件導刊(2016年9期)2016-11-07

基于關系圖的無人機影像三維重建

光學精密工程(2016年6期)2016-11-07

基于深度卷積網絡的人臉年齡分析算法與實現

軟件工程(2016年8期)2016-10-25

客聯2024年1期

客聯的其它文章: 淺談做好“五篇大文章”之綠色金融在河北的落地實踐; 金融科技的內涵及其發展歷程研究; 江蘇推進農業現代化、高水平建設農業強省的路徑研究; 社工進退兩難的困境; 當代青年女性家庭經濟地位對二孩意愿的影響研究; 賦能母親：產后抑郁婦女支持小組

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合