Petals - это платформа для запуска больших языковых моделей прямо у себя дома, работающая по принципу BitTorrent. Вместо того чтобы арендовать мощные серверы или платить за API, ты загружаешь часть модели на свой компьютер и подключаешься к сети других пользователей, которые делятся остальными частями. Получается децентрализованная система, где каждый участник вносит свой вклад.
С Petals можно работать с такими моделями, как Llama 3.1 (до 405 миллиардов параметров), Mixtral (8x22B), Falcon (40B+) или BLOOM (176B) - и всё это на обычной потребительской видеокарте или даже в Google Colab. Скорость генерации текста достигает 6 токенов в секунду для Llama 2 (70B) и 4 токенов в секунду для Falcon (180B), чего вполне хватает для чат-ботов и интерактивных приложений.
Главная фишка - гибкость. Это не просто API, где ты получаешь готовый результат и не знаешь, что происходит внутри. Здесь ты можешь применять любые методы дообучения и сэмплирования, прокладывать собственные пути через модель или изучать её скрытые состояния. Удобство API сочетается с возможностями PyTorch и библиотеки Transformers от Hugging Face.
Petals - это часть исследовательского проекта BigScience. Платформа активно развивается, и ты можешь не только пользоваться чужими ресурсами, но и подключить свою видеокарту, чтобы помочь другим участникам сети. Вся разработка идёт открыто, документация доступна на GitHub, а сообщество общается в Discord.