7 nasvetov za predobdelavo biosignalov: kako izboljšati robustnost klasifikatorja Deep Learning

Zakaj se ukvarjajo s hrupom in popačenjem, je tako pomembno

Običajno se lahko vsaka naloga klasifikacije (odkrivanje nenormalnosti), povezana z biosignali, kot so elektrokardiografija (EKG), elektroencefalografija (EEG), elektromiografija (EMG) itd., Obravnava kot problem prepoznavanja časovnih vrst.

V skladu s pogoji Karush – Kuhn – Tuckerja bi morali vhodni signali ustrezati kriterijem stacionarnosti. Preprosto morajo biti vzorci vhodnih signalov enaki ali podobni kot na vadbeni garnituri, ne da bi se spreminjala porazdelitev signala skozi čas.

Običajno je vsak posnetek biosignalov izpostavljen z veliko hrupa. Ta izkrivljanja v model dodajo dodatno odstopanje zaradi kršenja meril za stacionarnost.

Ti zvoki so lahko drugačne narave in natančnejše informacije, ki jih najdete tukaj in tukaj. V teh člankih je opisan EKG hrup, vendar se lahko uporablja tudi za vse biosignale.

To pomeni, da je skupna zmogljivost vašega klasifikatorja DL določena z učinkovitostjo tehnik predobdelave.

Poglejmo, kako je praktično mogoče izboljšati robustnost modela globokega učenja s predhodno obdelavo.

1. 50% učinkovite digitalne obdelave signalov predstavlja učinkovita analogna obdelava

Vsaka digitalna obdelava signalov se začne z učinkovito analogno kondicijo signala. Najpogostejša napaka je povezana z vztrajnim problemom.

Po teoremu Nyquist bi morala biti frekvenca vzorčenja ADC dvakrat višja od najvišje frekvence vhodnega signala. Vsak signal ne ustreza vzdevkom tega merila v glavno frekvenčno domeno in uporabno prikriva kot dodaten hrup:

Da bi preprečili to težavo, je analogni nizkoprepustni filter uporabljen pred ADC. Zelo pogosto inženirji strojne opreme menijo, da je za ta namen dovolj preprosto vezje RC. Obstaja pa velika razlika v frekvenčnem odzivu med popolnim nizkoprepustnim filtrom in resničnim:

Vsebuje frekvenco, značilno za idealne (leve) in prave (leve) analogne filtre

Prepričajte se, da vaš Inti-Aliasing LPF ustreza zahtevam zatiranja na frekvenci Nyquist (za dodatne podrobnosti priporočam to knjigo):

  • 50 dB za 8-bitni ADC
  • 62 dB za 10-bitni ADC
  • 74dB za 12-bitni ADC
  • 98 dB za 16-bitni ADC

2. Uporabite isto strojno opremo za usposabljanje in napovedi

Različne naprave definirajo različne pogoje snemanja signala, kot so nelinearna popačenja elektronike, različna ohišja, različen položaj senzorjev itd.

Ker različni pogoji definirajo različne signale, priporočam uporabo iste strojne opreme za model treninga in napovedovanje. Lahko je vzrok za dodatno pristranskost na vadbeni seti.

Če ni možnosti, je mogoče preizkusiti pred izkrivljanjem nabora za usposabljanje, vendar je potrebno dodatno strokovno znanje na področju strojne opreme in hrupa.

3. Nykvistov izrek za pospešitev treninga

Kot je opisano zgoraj, izrek Nyquist definira najnižjo hitrost vzorčenja ADC, da prihrani 100% informacij analognega signala po pretvorbi. To pomeni, da če je največja frekvenca signala nižja od Fs / 2, ima odvečnost, ki jo lahko uporabimo za pospešitev treninga Globoke mreže.

Poglejmo primer.

Obstaja EKG signal s frekvenco vzorčenja 125 Hz, ki jo zagotavlja baza podatkov Physionet (uporabljen je bil 30 Hz filter):

Namig za predhodno obdelavo EKG-ja: EKG-signali oddajo 0–100 Hz, vendar se lahko uporabi 30-HHz nizkoprepustni filter. P in T valove ohranja nedotaknjene, zmanjšuje pa amplitudo vrha R za 20-30%. Ni pomembno za odkrivanje nepravilnosti in štetje srčnega utripa.

Gostota spektra moči tega signala je videti:

Kot je prikazano zgoraj, je glavni del energije signala koncentriran med 0–30 HHz. Zmanjšajmo jo na 80Hz in primerjamo z izvirnim signalom:

Dokaz deksimacijskega učinka: signal s frekvenco vzorčenja 80Hz (zgornja) in 125Hz (spodnja)

Izvirna oblika je ohranjena, vendar se celotna dolžina signala zmanjša za 35%, z 92 na 59 vzorcev. To je 35-odstotno pospeševanje treninga brez izgube natančnosti.

Dokaz učinkovitosti tega pristopa je prikazan v mojem projektu Github.

Pomembna opomba: poskrbite, da vaš decimation ne bo izgubil dodatnih podrobnosti, ki bi jih lahko uporabili za prepoznavanje. Eksperimentiranje je edini način dokazovanja. Praktično pa je treniranje dveh zloženih modelov (CNN + LSTM) na signalih, ki jih ni mogoče vzorčiti, ponavadi hitrejše kot usposabljanje enega modela z izvirno hitrostjo vzorčenja, ne da bi pri tem izgubili zmogljivost.

4. Razumevanje zahtev sistema

Preden preizkusite bolj zapletene algoritme filtriranja, kot so Wavelette ali posvojitelji, priporočam, da razumete, katere funkcije so potrebne za prepoznavanje.

Tu je primer.

Upoštevajmo, da je naloga modela globokega učenja zaznavanje aritmije med hojo. Podatki o ECG hoji običajno vsebujejo nizkofrekvenčni hrup:

Medtem je jasen EKG signal videti takole:

P in T valovi so zamaskirani in izločiti jih je precej neprimerno. Preden poskusimo razviti zapletene algoritme, si poglejmo, kaj je dejansko aritmija:

Za odkrivanje aritmije je dovolj samo štetje impulzov za izgradnjo učinkovitega detektorja, očitno pa nizkofrekvenčni osnovni sprehodi vstavijo dodatno raznolikost s kršitvijo stacionarnosti.

Različni deli EKG lahko dodelijo različna področja spektra:

Preprosto, frekvenčni pas s frekvenco 5–15 Hz rešuje vprašanje črpanja R-vrhov. Z uporabo tega filtra se valovi P in T zavirajo (in nepravilnosti, povezane z njim, niso na voljo za prepoznavanje), vendar so zahteve sistema izpolnjene.

Glavno pravilo: čim več algoritma je zapleteno, tem manj je robusten in potrebuje več sredstev za izvajanje (tako časa kot denarja). Najprej morate poskusiti najpreprostejšo digitalno filtracijo.

5. Pri razvoju cevovodov uporabite načelo MiniMax

Načelo MiniMax je odlična strategija iz teorije iger.

Glavna težava biosignalov je spreminjanje kakovosti signalov skozi čas:

  • Primer 1. Visoka kakovost med nizko aktivnostjo predmeta:
  • Primer 2. Slaba kakovost podatkov med intenzivnim premikanjem. P in T sta zamaskirana in ga z enkanalnim sistemom ni mogoče izvleči iz hrupa:

V prvem primeru je zaznati P, QRS, T, kar pomeni, da je mogoče prepoznati večino nenormalnih vzorcev EKG-ja (srčni infarkt, atrijska fibrilacija itd.).

Za drugo je bilo mogoče prepoznati le nekatere nenormalne lastnosti, povezane s QRS (aritmijo itd.).

Kot je prikazano zgoraj, je najboljši način pridobivanja QRS uporaba pasovnega filtra 5–15 Hz, medtem ko bosta P in T zatirana.

Za primer 2 ne bo ključnega pomena, saj sta P in T zakrita s hrupom, vendar omejuje količino možnih odkritih patologij, medtem ko kakovostni podatki na vhodu.

Najboljši način, da se tej težavi izognete, je uporaba prilagodljivega filtra, ki spremeni impulzni odziv na spreminjajoče se okolje:

Ideja je preprosta:

  1. Izdelajte detektor kakovosti podatkov (linearni detektorji / CNN);
  2. Določite niz filtrov;
  3. Naredite pravilo spreminjanja impulznega odziva, odvisno od kakovosti vhodnega signala.

6. Pameten način uporabe filtrov High-Pass

Običajno je filtriranje z visokim pasovnim prehodom potrebno za reševanje osnovnih potez:

EEG z osnovnim hrupom

Očiten pristop upošteva uporabo visokoprepustnega filtra. Glavna ovira za to je zelo nizka frekvenca izklopa (0,05 Hz) in velika zaviranje zaustavitve (> 30 dB). Za izpolnitev zahtev mora biti filter v visokem vrstnem redu, kar pomeni dolgo zamudo, ki morda ni primerna za aplikacije v realnem času.

Drugi način:

  • Zmanjšati vhodni signal;
  • Črpajte osnovni hrup z uporabo nizkoprepustnega filtra z izklopno frekvenco 0,05 Hz;
  • Interpolirajte signal;
  • Od prvotnega signala odštejte osnovno črto

Primer kode (Matlab) je na voljo v tem skladišču GitHub.

7. Iterativno eksperimentiranje

Kot vsaka težava Data Science je tudi klasifikacija biosignalov iterativni eksperimentalni postopek, ker so lahko različni pristopi filtriranja primerni za različne aplikacije.

Povzel sem ožji seznam filtrirnih tehnik, od najbolj zanesljivih do najslabših.

OPOMBA: To je samo moje osebno mnenje in ne more sovpadati z vašim.

  • Digitalno filtriranje (FIR, IIR). FIR je priporočljiv zaradi odsotnosti popačenja skupinskih zamud. Ima zmerno zmogljivost, v idealnih razmerah za nespecifične pogoje, zelo enostaven za uporabo in 100% trden.
  • Valetno filtriranje. Močna zmogljivost, vendar je realizacija lahko zapletena glede izbire parametrov.
  • Prilagodljivo filtriranje. Ta metoda kaže slabše zmogljivosti kot filtriranje z Waveletom, vendar je veliko preprostejša za izvajanje z dobro okretnostjo in zmogljivostjo.
  • Analiza neodvisnih komponent (ICA) / Ločitev slepih virov (BSS). Tukaj je na voljo implementacija algoritma Fast ICA v najbolj priljubljenih programskih jezikih. Priporočam, da poskusite zadnji, ker:
  1. Deluje samo z večkanalnimi konfiguracijami;
  2. Trdnost tega pristopa se mi zdi zelo slaba, ker konvergenca ni zagotovljena;
  3. Zahteva razmeroma več računskih virov, morda ni primerna za aplikacije v realnem času.

___________________________________________________________________

Je bil papir uporaben? Prosimo, pustite svoje povratne informacije o članku na tej povezavi

___________________________________________________________________

Dmitrii Shubin, inženir za raziskave in razvoj, Medicinski pripomočki

Toronto, ON, Kanada

Kontaktne informacije:

E-pošta: shubin.dmitrii.n@gmail.com

LinkedIn, GitHub