3~10秒の音源が理想と見たが1秒未満の掛け声とかそういうのってカットしたほうがいいんだろうか