You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Для VCF это не просто эстетическая штука, а обязательное требование. Что касается BED, там несортированность не смертельна, но снижает производительность некоторым программам (например, bedtools).
Реализация:
create_db должен создавать компаундный индекс по первым двум (VCF) или трём (BED) полям. Без него парсеры при попытке сортировки по этим полям будут крайне тормозить и даже вылетать. Но от возможности создания раздельных индексов по упомянутым полям отказываться не хотелось бы. Я экспериментально убедился в том, что MongoDB разрешает совмещать несколько индексов для одного поля. Но предстоит ещё разобраться, как такое влияет на производительность запросов. Не запутается ли MongoDB при их выполнении? UPD-11.04.2020: не запутается.
reindex_db. Возможно, будет полезен запрет на удаление обсуждаемого составного индекса.
annotator, intersect_subtract, make_request. sort() для курсора и $sort в aggregation pipeline. UPD-18.04.2020: $sort надо держать в конце пайплайна, чтобы тот не мешал предыдущим звеньям использовать индекс. Сам он при этом индексом пользоваться не сможет, что должно частично компенсироваться режимом внешней сортировки.
The text was updated successfully, but these errors were encountered:
- VCF, BED: обязательная индексация полей с хромосомами, позициями и (для VCF) идентификаторами мутаций. Индекс хромосом и позиций - составной. Исследователь по-прежнему может добавлять произвольные одиночные индексы. Этот релиз даёт начало решению Issue #5.
- Построение compound-индексов. На данный момент в _high-perf-bio_ такой тип индексов пригождаются для сортировки (#5) и пересечения/вычитания по локализации в геноме.
Думаю над более конкретной фичей, чем #3.
Для VCF это не просто эстетическая штука, а обязательное требование. Что касается BED, там несортированность не смертельна, но снижает производительность некоторым программам (например, bedtools).
Реализация:
The text was updated successfully, but these errors were encountered: