全國中小學科展

電腦科學與資訊工程

由立體思維解循環式最大流量問題_以教師介聘為例

本研究旨在應用立體思維解決循環式的最大流量問題,於教師介聘中,可提出擁有品質保證之方法,並求得介聘成功人數之區間。教師介聘應為一限制的網路流(每個節點至少一入一出),試著求出最大循環流量。 教師介聘為學校間之教師調換作業,透過志願選填與其他參與者進行交換。以110年的介聘規則而言,介聘順序為單調→五角調→四角調→三角調→互調,相同者以積分高為優先。現有制度受限於作業期程、業務人員能力,約略簡化問題原型,但即使如此,介聘處理的結果仍不提供數據分析,導致無從分析其品質及過程,因此介聘的結果、數量和方法皆仍有很大的研究空間。 此研究除了可使媒合數量最大化外,進而由原模型衍伸出多種策略,可以透過調整參數並於結果與時間中取得平衡。單志願介聘中,透過使用不同模型使準確率(介聘成功人數/最多成功人數)介於88~100%,運算時間與準確率成正相關。多志願介聘以自訂規則作為範例,套用單志願介聘模型呈現效果。

利用深度學習將黑白影片色彩化

1920年代和1930年代,攝影設備剛剛起步,攝影設備只能拍攝黑白圖像的照片或影片,但仍有許多經典電影被記錄下來。如今,隨著科技的進步,攝影設備也在不斷迭代,彩色成像技術和高品質成像技術不斷被更好的技術所取代。因此,如何將黑白圖像轉換為彩色圖像成為一個重要的研究課題。本研究的目的是將黑白影片轉換成彩色影片。我們的方法可以分為兩部分:彩色化模型設計和影片連續性優化。在顏色轉換模型設計部分,我們使用了生成對抗網絡(GANs)技術,基於U-Net設計了5個模型,並使用COCO數據集訓練顏色生成模型。在電影連續性優化部分,我們首先使用景觀數據集中微調的前五個模型中最好的模型。在這個過程中,我們發現模型生成的影片存在顏色不連續的問題。因此,我們設計了三套方案來解決,比如使用H.264重新編碼生成電影,使用平均像素的色調值提高電影的色調穩定性,使用ORB預測個別幀。結果表明,影片的色彩轉換效果表現優異。

利用半監督式學習進行自動星系分類

本研究使用半監督式機器學習搭配卷積神經網路來訓練核心模型,並將星系的圖片加入模型裡,讓電腦自動判斷出該星系的種類為何。我使用自行設計的CNN架構以及VGG-16當作我的卷積神經網路架構。資料集來源為EFIGI和Galaxy Zoo 2。我分為兩種任務,第一種任務是讓模型能分辨橢圓 (E)、螺旋 (S)、不規則 (I) 這三種類別的星系,訓練資料共有2,468張照片,最後的正確率能達到94%。第二個任務是將8種的星系照片(E、S0、Sa、Sb、Sc、SBa、SBb、SBc)進行分類,並使用自動編碼器作為預訓練,使用1,923張EFIGI的圖片以及1,258張Galaxy Zoo 2的照片當作訓練資料。由於各星系照片有許多外觀太過相似,測試準確度最高達到54.12%,基於我的研究,星系自動化辨識於天文學上應該有相當大的運用空間。

Adversarial Attacks Against Detecting Bot Generated Text

With the introduction of the transformer architecture by Vaswani et al. (2017), contemporary Text Generation Models (TGMs) have shown incredible capabilities in generating neural text that, for humans, is nearly indistinguishable from human text (Radford et al., 2019; Zellers et al., 2019; Keskar et al., 2019). Although TGMs have many potential positive uses in writing, entertainment and software development (Solaiman et al., 2019), there is also a significant threat of these models being misused by malicious actors to generate fake news (Uchendu et al., 2020; Zellers et al., 2019), fake product reviews (Adelani et al., 2020), or extremist content (McGuffie & Newhouse, 2020). TGMs like GPT-2 generate text based on a given prompt, which limits the degree of control over the topic and sentiment of the neural text (Radford et al., 2019). However, other TGMs like GROVER and CTRL allow for greater control of the content and style of generated text, which increases its potential for misuse by malicious actors (Zellers et al., 2019; Keskar et al., 2019). Additionally, many state-of-the-art pre-trained TGMs are available freely online and can be deployed by low-skilled individuals with minimal resources (Solaiman et al., 2019). There is therefore an immediate and substantial need to develop methods that can detect misuse of TGMs on vulnerable platforms like social media or e-commerce websites. Several methods have been explored in detecting neural text. Gehrmann et al. (2019) developed the GLTR tool which highlights distributional differences in GPT-2 generated text and human text, and assists humans in identifying a piece of neural text. The other approach is to formulate the problem as a classification task to distinguish between neural text and human text and train a classifier model (henceforth a ‘detector’). Simple linear classifiers on TF-IDF vectors or topology of attention maps have also achieved moderate performance (Solaiman et al., 2019; Kushnareva et al., 2021). Zellers et al. (2019) propose a detector of GROVER generated text based on a linear classifier on top of the GROVER model and argue that the best TGMs are also the best detectors. However, later results by Uchendu et al. (2020) and Solaiman et al. (2019) show that this claim does not hold true for all TGMs. Consistent through most research thus far is that fine-tuning the BERT or RoBERTa language model for the detection task achieves state-of-the-art performance (Radford et al., 2019; Uchendu et al., 2020; Adelani et al., 2020; Fagni et al., 2021). I will therefore be focussing on attacks against a fine-tuned RoBERTa model. Although extensive research has been conducted on detecting generated text, there is a significant lack of research in adversarial attacks against such detectors (Jawahar et al., 2020). However, the present research that does exist preliminarily suggests that neural text detectors are not robust, meaning that the output can change drastically even for small changes in the text input and thus that these detectors are vulnerable to adversarial attacks (Wolff, 2020). In this paper, I extend on Wolff’s (2020) work on adversarial attacks on neural text detectors by proposing a series of attacks designed to counter detectors as well as an algorithm to optimally select for these attacks without compromising on the fluency of generated text. I do this with reference to a fine-tuned RoBERTa detector and on two datasets: (1) the GPT-2 WebText dataset (Radford et al., 2019) and (2) the Tweepfake dataset (Fagni et al., 2021). Additionally, I experiment with possible defences against these attacks, including (1) using count-based features, (2) stylometric features and (3) adversarial training.

自動X光檢測重建2.5D圖形用於非破壞性檢測:印刷電路板之應用

為了解決自動光學檢測的非穿透性檢測物體方式,使用自動X光檢測能解決此問題,因此,本研究嘗試開發自動X光檢測技術,並藉由常見的印刷電路板作為應用。作為結果,本研究能進行X光模擬理想化印刷電路板,搭配實體X光取像,藉由平移堆疊法重建出2.5D印刷電路板影像,並藉由霍夫法圓形辨識圈選錫球,輸入卷積神經網路,辨識錫球焊點之優劣。

以深度學習進行心音及高血壓關聯性之研究

2019年衛生福利部死因統計資料顯示和高血壓有高度相關的心臟疾病、腦血管疾病和高血壓性疾病皆在十大死因之列[15]。本研究提出以深度學習對心跳聲的時序頻譜圖進行訓練與分析的研究方法,應用此方法我們能以Convolution Neural Network(CNN)模型從受測者心跳聲預測出其血壓層級。CNN一般用於圖像分類,但在此研究中我們以此來分析心跳聲。本研究發現利用僅萃取第二心音的資料庫訓練效果較佳,並透過熱圖分析注意到模型對特定頻率域較為重視,在後續實驗中更進一步發現0~200 Hz和400~600 Hz在判斷高血壓時扮演重要角色。同時,我們也成功應用此方法,區分出長期高血壓和運動高血壓,證明心血管的結構改變在時序頻譜圖上有對應特徵。若應用於穿戴型裝置持續監控心跳聲,就能隨時追蹤使用者的血壓層級的變化,有異常便能盡早就醫,避免憾事發生。

Face Pose Estimation using ResNet50 in the Metaverse

Face pose estimation has many possible applications, ranging from driver attention measurement systems to applications in the metaverse, which this project will be focused on. Rather than using a more traditional landmark-to-pose method where the head pose is estimated via keypoints, our method trains a simple convolutional neural network, using the dataset 300W_LP, where the images are simply inputted into the network. The model is fitted with three fully connected layers that are linked to the each of the three Euler angles (yaw, pitch, and roll), alongside multiple loss functions, which improve the robustness of the network.

應用深度學習sequence to sequence model 於古文解譯

以將古文翻譯成白話文為初衷,以爬蟲擷取古文解譯網站「讀古詩詞網」中的大量古文及其白話翻譯作為訓練用的資料,並按照不同文體分開訓練。我們先嘗試用Bert模型做選擇題:給一句古文讓機器從四個選項中選出其翻譯。一開始隨機挑選其餘三個選項,正確率高達96%。因此我們挑戰更困難的設置,撰寫搜尋關鍵字的程式,將有與題目古文相同字的白話文放入選項。雖然準確率有些許降低,但仍高於只選重複字最多選項的結果,代表模型有發展出獨立的判定標準。選擇題成功後,我們用MT5 模型嘗試更困難的翻譯,並在訓練集中新增提供不同前後文的注釋資料幫助訓練。雖然還無法翻得非常準確,但仍在某些句子有不錯的表現。我們也發現了模型對某些特定類型字詞的翻譯有待加強,未來希望透過加強代名詞判斷訓練及持續新增注釋來增加整體翻譯能力。

軌道安全,唯快不破-高效能AI軌道異物偵測系統設計之研究

臺鐵太魯閣號於 2021 年 4 月撞擊滑入軌道的工程車的事故,是 60 年最嚴重一場意外。 北捷文湖線也曾有大型招牌掉落事件,顯示軌道安全的重要性。本研究參訪高鐵、臺鐵、北 捷和新北捷-淡海輕軌,將四大軌道公司的異物偵測系統做探討。採用 Yolo 系列物件偵測演 算法,進行模型訓練,設計一套「高效能 AI 軌道異物偵測系統」。將攝影機架設在車頭,並 加裝望遠鏡頭,達到遠距離的預警。採用可見光攝影機與 AI 物件偵測的技術,並應用內嵌 系統 Jetson TX2,讓列車提前確認是何異物,提升安全性,採取不同煞車措施,降低誤點率。 以台北捷運文湖線為實驗場域,測試各種天候條件,如:晴天、雨天、傍晚等。也在不同場 域實測如:臺鐵內灣線、淡海輕軌。本系統平均準確率 95% mAP 與運行的幀率達 40FPS, 能縮短辨識時間,讓駕駛能立即反應和提前預警,達到保障人車安全的目的。

以機器學習增強無人機飛行準確度

無人機在進行定位時,多半是依靠內建GPS晶片與內建慣性測量單元(Inertial Measurement Unit, IMU)進行定位,然而高精度的IMU及GPS晶片受限於高成本無法在一般無人機上運行;此外,各種定位系統均有其適用範圍,若無人機運行於定位系統之適用環境外,其定位精確度會下降,進而導致無人機飛行時會與預期路線產生誤差。 在本研究中,我利用Webots模擬軟體進行無人機模擬,藉由無人機鏡頭所拍攝的連續兩幀圖片差異,產生差異與角度及距離間的關係資料集,並利用此資料集來訓練深度神經網路,將產生模型用以模型迴歸出連續圖片間的旋轉角度偏移量,以此偏移量輔助無人機進行飛行校正。 經過多次實驗與修改,我比較了幾種不同的資料處理與分類方法,找出當中最佳結果的機器學習模型後,將此模型套入模擬環境中輔助無人機飛行,使無人機飛行於複雜環境時,成功提升飛行準確度。