‹›計算音声動的時間伸縮法(DTW)を使って録音音声を比較する
「不思議の国のアリス」の最初の文の4通りの録音音声をインポートし,トリムし,前処理する.
完全なWolfram言語入力を表示する
urls = {"http://ia800503.us.archive.org/3/items/alices_adventures/\
aliceinwonderland_01_carroll.mp3",
"http://ia800306.us.archive.org/25/items/alice_wonderland_0711_\
librivox/alice_01_carroll.mp3",
"http://ia800201.us.archive.org/32/items/alices_adventures_1003/\
alices_adventures_01_carroll.mp3",
"https://ia800904.us.archive.org/15/items/alicesadventure_abridged_\
pc_librivox/alicesadventuresinwonderlandabridged_01_carroll.mp3"};
times = {{27, 33.5}, {16.5, 25}, {22.3, 28.5}, {31, 38}};
alice = ConformAudio[
MapThread[
AudioNormalize[
AudioChannelMix[AudioTrim[AudioResample[Import[#1], 11025], #2],
1]] &, {urls, times}]]
信号のプロットを示す.
AudioPlot[alice, ImageSize -> Medium]
サンプルのMFCCに基づく特徴を計算しプロットする.
mfcc = AudioLocalMeasurements[#, "MFCC",
PartitionGranularity -> {.05, .01}]["Values"] & /@ alice;
Column[MatrixPlot[#, PlotTheme -> "Minimal", ImageSize -> Medium] & /@
Transpose /@ mfcc]
WarpingDistanceを使って,録音音声間の動的時間伸縮による距離を計算する.
DistanceMatrix[mfcc,
DistanceFunction -> WarpingDistance] // MatrixPlot
WarpingCorrespondenceを使って,2つの録音音声間の動的時間伸縮対応を計算する.
{n, m} = WarpingCorrespondence[mfcc[[1]], mfcc[[2]]];
完全なWolfram言語入力を表示する
dur = QuantityMagnitude[Duration[alice[[1]]], "s"];
s = {n, m}\[Transpose]/Max[{n, m}] dur;
Labeled[
ListLinePlot[
s,
PlotRange -> {{0, dur}, {0, dur}}, AspectRatio -> 1, Axes -> False,
PlotStyle -> Thickness[.01], ImageSize -> Medium, Frame -> True,
FrameTicks -> None,
Prolog -> {RGBColor[
0.6666666666666666, 0.6666666666666666,
0.6666666666666666], {Line[{{#[[1]], 0}, #}],
Line[{{0, #[[2]]}, #}]} & /@ (s[[;; ;; 100]])}
],
AudioPlot[#, PlotStyle -> RGBColor[0.560181, 0.691569, 0.194885],
Frame -> False, Axes -> False, ImageSize -> Medium,
AspectRatio -> 1/15] & /@ (alice[[;; 2]]), {Bottom, Left},
RotateLabel -> True, Spacings -> {0, 0}]