Почему Google перешел с Python на C ++ для использования в своем поисковом роботе?
2
Python довольно элегантен и, безусловно, быстрее в разработке. Что послужило причиной этого изменения и есть ли приблизительные оценки прироста производительности?
Сканирование - относительно небольшая часть процесса создания индекса.
Python был «исключен» из основного стека поиска примерно в 2000 году.
Основным узким местом сканирования является параллелизм.
Они сканируют МНОГО страниц в секунду, и для успешного сканирования каждой из них может потребоваться несколько минут [они привязаны к серверу]. Вполне возможно, что современный Python допускает массовый параллелизм для каждой машины / процесса, но определенно не имело место десять лет назад.
HTTP и другие связанные протоколы не сильно изменились за более чем десятилетие, поэтому код сканирования нижнего уровня не выигрывает от предполагаемого более быстрого цикла разработки Python.
1 ответ
qawiki
Сканирование - относительно небольшая часть процесса создания индекса.
Python был «исключен» из основного стека поиска примерно в 2000 году.
Основным узким местом сканирования является параллелизм.
Они сканируют МНОГО страниц в секунду, и для успешного сканирования каждой из них может потребоваться несколько минут [они привязаны к серверу]. Вполне возможно, что современный Python допускает массовый параллелизм для каждой машины / процесса, но определенно не имело место десять лет назад.
HTTP и другие связанные протоколы не сильно изменились за более чем десятилетие, поэтому код сканирования нижнего уровня не выигрывает от предполагаемого более быстрого цикла разработки Python.