예전에 KLDP 10주년 컨퍼런스에서 GNOME BoF를 즐기다가 이런 저런 얘기가 나오면서 자막에 대해 mithrandir님이 나와 같은 아이디어를 갖고 있다는 걸 알게 됐는데... 그 내용은 이렇다.
인간의 음성은 300Hz에서 3500Hz정도이므로 동영상 클립에서 대사가 나오는 부분이 어디인지를 자동으로 찾을 수 있다. 자막 작업을 실제로 어떻게 하는지는 모르겠지만, 이걸 이용하면 좀 더 효율적인 자막 작업이 가능하지 않을까? 보통 동영상의 자막은 말이 시작되는 시점에 나타났다가 말이 끝나고 일정시간 뒤에 사라지기 때문에 자막의 시작/끝 타이밍 조절처럼 번역 자체와는 별개의 작업들을 상당부분 자동화할 수 있다. 번역하면서 반복해서 듣고 싶을 때도 음성이 검색된 부분 기준으로 다시 들으면 된다.
GStreamer를 이용하면 간단히 proof-of-concept가 가능하다. spectrum element를 이용해 오디오의 대역 정보를 뽑아내다가 음성 대역이 발생하는 지점부터 끝나는 지점까지 구간 추출. (그런데 귀찮아....)
댓글 없음:
댓글 쓰기
뜬금없이 문법 따위를 지적하거나, 오래된 글에 링크가 깨진 걸 지적하는 등의 의미 없는 댓글은 자제해 주시기 바랍니다. 그러한 경우 답 없이 삭제합니다. 또한 이해 당사자이신 경우 숨어서 옹호하지 마시고 당사자임을 밝히시길 바랍니다.
참고: 블로그의 회원만 댓글을 작성할 수 있습니다.