全國中小學科展

電腦科學與資訊工程

應用深度學習sequence to sequence model 於古文解譯

以將古文翻譯成白話文為初衷,以爬蟲擷取古文解譯網站「讀古詩詞網」中的大量古文及其白話翻譯作為訓練用的資料,並按照不同文體分開訓練。我們先嘗試用Bert模型做選擇題:給一句古文讓機器從四個選項中選出其翻譯。一開始隨機挑選其餘三個選項,正確率高達96%。因此我們挑戰更困難的設置,撰寫搜尋關鍵字的程式,將有與題目古文相同字的白話文放入選項。雖然準確率有些許降低,但仍高於只選重複字最多選項的結果,代表模型有發展出獨立的判定標準。選擇題成功後,我們用MT5 模型嘗試更困難的翻譯,並在訓練集中新增提供不同前後文的注釋資料幫助訓練。雖然還無法翻得非常準確,但仍在某些句子有不錯的表現。我們也發現了模型對某些特定類型字詞的翻譯有待加強,未來希望透過加強代名詞判斷訓練及持續新增注釋來增加整體翻譯能力。

Face Pose Estimation using ResNet50 in the Metaverse

Face pose estimation has many possible applications, ranging from driver attention measurement systems to applications in the metaverse, which this project will be focused on. Rather than using a more traditional landmark-to-pose method where the head pose is estimated via keypoints, our method trains a simple convolutional neural network, using the dataset 300W_LP, where the images are simply inputted into the network. The model is fitted with three fully connected layers that are linked to the each of the three Euler angles (yaw, pitch, and roll), alongside multiple loss functions, which improve the robustness of the network.

Human-computer Interaction-based Millimeter-wave Radar Gesture Recognition

本研究提出了一個毫米波雷達即時動態手勢辨識技術,透過幾個簡單的手勢取代鍵盤和滑鼠來操作應用程序,從而提供更生活化和直覺化的人機介面。我們透過手勢屬性分析、手勢訓練資料格式選擇評估、學習模型效能評估和系統實測性能分析,以提高手勢控制人機界面的實用性。我們的學習模型採用一大小為415 KB的1DCNN+LSTM混合模型支持四個動態手勢,並在德州儀器的FMCW雷達評估板上以30 FPS的採樣速度進行手勢識別。我們在7個用戶(包括5個右撇子和2個左撇子)的多媒體撥放實際測試中達到94.5%的操控準確率。此外,我們的方案在實驗室環境之外的複雜空間中操控應用程序,也不會有明顯的辨識錯誤的情況發生。

Adversarial Attacks Against Detecting Bot Generated Text

With the introduction of the transformer architecture by Vaswani et al. (2017), contemporary Text Generation Models (TGMs) have shown incredible capabilities in generating neural text that, for humans, is nearly indistinguishable from human text (Radford et al., 2019; Zellers et al., 2019; Keskar et al., 2019). Although TGMs have many potential positive uses in writing, entertainment and software development (Solaiman et al., 2019), there is also a significant threat of these models being misused by malicious actors to generate fake news (Uchendu et al., 2020; Zellers et al., 2019), fake product reviews (Adelani et al., 2020), or extremist content (McGuffie & Newhouse, 2020). TGMs like GPT-2 generate text based on a given prompt, which limits the degree of control over the topic and sentiment of the neural text (Radford et al., 2019). However, other TGMs like GROVER and CTRL allow for greater control of the content and style of generated text, which increases its potential for misuse by malicious actors (Zellers et al., 2019; Keskar et al., 2019). Additionally, many state-of-the-art pre-trained TGMs are available freely online and can be deployed by low-skilled individuals with minimal resources (Solaiman et al., 2019). There is therefore an immediate and substantial need to develop methods that can detect misuse of TGMs on vulnerable platforms like social media or e-commerce websites. Several methods have been explored in detecting neural text. Gehrmann et al. (2019) developed the GLTR tool which highlights distributional differences in GPT-2 generated text and human text, and assists humans in identifying a piece of neural text. The other approach is to formulate the problem as a classification task to distinguish between neural text and human text and train a classifier model (henceforth a ‘detector’). Simple linear classifiers on TF-IDF vectors or topology of attention maps have also achieved moderate performance (Solaiman et al., 2019; Kushnareva et al., 2021). Zellers et al. (2019) propose a detector of GROVER generated text based on a linear classifier on top of the GROVER model and argue that the best TGMs are also the best detectors. However, later results by Uchendu et al. (2020) and Solaiman et al. (2019) show that this claim does not hold true for all TGMs. Consistent through most research thus far is that fine-tuning the BERT or RoBERTa language model for the detection task achieves state-of-the-art performance (Radford et al., 2019; Uchendu et al., 2020; Adelani et al., 2020; Fagni et al., 2021). I will therefore be focussing on attacks against a fine-tuned RoBERTa model. Although extensive research has been conducted on detecting generated text, there is a significant lack of research in adversarial attacks against such detectors (Jawahar et al., 2020). However, the present research that does exist preliminarily suggests that neural text detectors are not robust, meaning that the output can change drastically even for small changes in the text input and thus that these detectors are vulnerable to adversarial attacks (Wolff, 2020). In this paper, I extend on Wolff’s (2020) work on adversarial attacks on neural text detectors by proposing a series of attacks designed to counter detectors as well as an algorithm to optimally select for these attacks without compromising on the fluency of generated text. I do this with reference to a fine-tuned RoBERTa detector and on two datasets: (1) the GPT-2 WebText dataset (Radford et al., 2019) and (2) the Tweepfake dataset (Fagni et al., 2021). Additionally, I experiment with possible defences against these attacks, including (1) using count-based features, (2) stylometric features and (3) adversarial training.

運用影像辨識及機器學習改良網路打字系統與密碼

本研究延續先前自己所做的研究進行延伸。首先研究者嘗試利用Python、MediaPipe、OpenCV進行手部辨識,判斷使用者是否用正確的手指按壓鍵盤,逐次開發打字系統提升精進指法的練習平台;在過程中研究者觀察到多數人打字習慣都不一樣,所以嘗試將打字習慣運用機器學習形成密碼,讓其他人就算知道密碼也無法輕易解密,因為他們並沒有使用者的打字習慣。並提出三項研究目的,分別為增加機器學習模型Random Forest並觀察準確率,提出最短密碼之研究方法及忘記密碼系統之研究方法,並提出關於電腦前後端問題的解決方法。目前研究已能夠判斷使用者是否用正確的手指按壓按鍵。未來預計解決打字到拍攝的時間差回推影像等問題,並將蒐集更多數據觀察觀察模型結果,找尋一種最佳的密碼模型。未來也會將此打字系統架設到網站上,並且蒐集使用者的人機體驗感想回饋,進而更為精進完善本系統。

利用增強學習之Q-Learning,解決數字華容道的比較性發展研究

因為我們一開始對電腦程式語言有濃厚的興趣,所以去學習了python程式語言,後來發現到世界三大益智的華容道遊戲,似乎可以加以運用,又從文獻中發現了人工智慧之重要性和增強學習的各類法則。剛好於國中時期寫出了讓電腦產生並解決3*3數字華容道之程式。但發現4*4的遊戲竟有20兆種組合,該無法用3*3之程式思維。後來用了增強學習的Q-Learning技術,不僅完成任務,而且還可以發展出人與電腦的比賽,造成轟動、受到小朋友的喜愛~最後我們還希望自己能設計出不同的華容道加以測試,並研究深度增強學習(DRL)的原理與應用,來解決更高階的遊戲,達到增進人工智慧學習的發展。

以機器學習增強無人機飛行準確度

無人機在進行定位時,多半是依靠內建GPS晶片與內建慣性測量單元(Inertial Measurement Unit, IMU)進行定位,然而高精度的IMU及GPS晶片受限於高成本無法在一般無人機上運行;此外,各種定位系統均有其適用範圍,若無人機運行於定位系統之適用環境外,其定位精確度會下降,進而導致無人機飛行時會與預期路線產生誤差。 在本研究中,我利用Webots模擬軟體進行無人機模擬,藉由無人機鏡頭所拍攝的連續兩幀圖片差異,產生差異與角度及距離間的關係資料集,並利用此資料集來訓練深度神經網路,將產生模型用以模型迴歸出連續圖片間的旋轉角度偏移量,以此偏移量輔助無人機進行飛行校正。 經過多次實驗與修改,我比較了幾種不同的資料處理與分類方法,找出當中最佳結果的機器學習模型後,將此模型套入模擬環境中輔助無人機飛行,使無人機飛行於複雜環境時,成功提升飛行準確度。

有感而發-結合感測器與自動控制之自駕車煞車系統評估

自駕車的相關研發日益受到重視,尤其在複雜的交通運輸中提供更安全、更有效的防護是自駕車的發展重點之一。本次研究主要探究不同距離感測器與不同PID自動控制組合,針對靜物與移動障礙物進行煞車成效分析。研究結果顯示不同的距離感測器的精準度與穩定性不同,在固定障礙物狀態下雷射距離感測器因為精準度和穩定度較高,而超音波較容易受到外界干擾,所以比較不精準。由於超音波距離感測器的偵測範圍廣,所以可以事先偵測到移動障礙物,反而提供自動控制較多的反應時間,在加速度的表現上較為穩定.自動控制表現上P控制的情況下機器人常常卡在最後一點點的距離,不過超音波感測器因為會有點誤差,所以反而會比雷射感測器快停下來;PI控制因為可以消除穩態誤差,所以時間消耗都是最短的;PD控制原本的功用應該是快速修正,由於D控制的增益常數(gain)過大,影響D控制作用,因此PD控制的效果沒有特別突出的部分。

軌道安全,唯快不破-高效能AI軌道異物偵測系統設計之研究

臺鐵太魯閣號於 2021 年 4 月撞擊滑入軌道的工程車的事故,是 60 年最嚴重一場意外。 北捷文湖線也曾有大型招牌掉落事件,顯示軌道安全的重要性。本研究參訪高鐵、臺鐵、北 捷和新北捷-淡海輕軌,將四大軌道公司的異物偵測系統做探討。採用 Yolo 系列物件偵測演 算法,進行模型訓練,設計一套「高效能 AI 軌道異物偵測系統」。將攝影機架設在車頭,並 加裝望遠鏡頭,達到遠距離的預警。採用可見光攝影機與 AI 物件偵測的技術,並應用內嵌 系統 Jetson TX2,讓列車提前確認是何異物,提升安全性,採取不同煞車措施,降低誤點率。 以台北捷運文湖線為實驗場域,測試各種天候條件,如:晴天、雨天、傍晚等。也在不同場 域實測如:臺鐵內灣線、淡海輕軌。本系統平均準確率 95% mAP 與運行的幀率達 40FPS, 能縮短辨識時間,讓駕駛能立即反應和提前預警,達到保障人車安全的目的。

針對梅花棋遊戲之人工智慧實作與分析

本研究旨在解決先前研究未解決的問題。而在本研究中對於對稱規則及非對稱規則的梅花棋遊戲,各提出兩大人工智慧演算法。分別是Minimax及Monte Carlo Tree Search。而在這之中,Minimax又被分為探索深度一層、兩層及三層、MCTS則是以模擬次數分為100、300、500、…、1900多個版本。而以目前的成果來說,我們認為其勝率並不理想。而主要的原因還是要歸咎於目前所有演算法的結果過於隨機化,而即使我們對於UCB公式進行優化,雖然勝率有所提升但仍然不符合我們的期待。為了解決上述問題,我們希望從根本解決運行效率過低的問題,而最顯而易見的方法就是在遊戲運作前先將人工智慧訓練完畢,也就是在遊戲開始時直接給予一套策略,令電腦無須再做額外的遊戲模擬。綜上所述,我們開始實作Tuple-Network、TD Learning及AlphaZero的相關架構,但礙於時間關係,模型尚未被訓練。