예전에 KLDP 10주년 컨퍼런스에서 GNOME BoF를 즐기다가 이런 저런 얘기가 나오면서 자막에 대해 mithrandir님이 나와 같은 아이디어를 갖고 있다는 걸 알게 됐는데... 그 내용은 이렇다.
인간의 음성은 300Hz에서 3500Hz정도이므로 동영상 클립에서 대사가 나오는 부분이 어디인지를 자동으로 찾을 수 있다. 자막 작업을 실제로 어떻게 하는지는 모르겠지만, 이걸 이용하면 좀 더 효율적인 자막 작업이 가능하지 않을까? 보통 동영상의 자막은 말이 시작되는 시점에 나타났다가 말이 끝나고 일정시간 뒤에 사라지기 때문에 자막의 시작/끝 타이밍 조절처럼 번역 자체와는 별개의 작업들을 상당부분 자동화할 수 있다. 번역하면서 반복해서 듣고 싶을 때도 음성이 검색된 부분 기준으로 다시 들으면 된다.
GStreamer를 이용하면 간단히 proof-of-concept가 가능하다. spectrum element를 이용해 오디오의 대역 정보를 뽑아내다가 음성 대역이 발생하는 지점부터 끝나는 지점까지 구간 추출. (그런데 귀찮아....)