Доброчанька 12/07/2022 (Wed) 23:59 No.1222 del
(554.16 KB 800x1257 16700094608982.jpg)
>>1220
Я знаю и то, как программистишки любят попускать хайпующих дилетантов.

Это _первый раз_, когда я вижу такое количество людей, говорящих "ненавижу хайп, надоели нейросети от смузихлёбов, но тут всё по-другому, посоны мне страшно, оно может делать то, за что мне платят деньги".

Ладно, как хочешь.

Мелкая новость: тихо вышла модель OpenAI whisper v2. Она заметно лучше предыдущей и делает, пожалуй меньше ошибок, чем средняя стенографистка. Даже неплохо понимает, где ставить кавычки, например. Гугло- и apple-голосовой ввод, dragon dictation и прочие альтернативы рядом не стояли.

Работает в разы быстрее реалтайма на слабом GPU, если ставить отсюда https://github.com/ggerganov/whisper.cpp

>>1221
Не знаю, что ты хочешь делать. По сути это способ либо понять, какие ключевые слова дают заданную картинку, либо какие картинки получаются по таким ключевым словам. Ты, видимо, хочешь первое. Но твои картинки либо нарисованы людьми, либо сгенерены чем-то вроде AnythingV3. Лексика ищет только по базе данных загруженных генераций базового stable diffusion. Я думаю, тебе придётся подождать, когда вайфу-лабс выпустят свой clip Interrogator, потому что он сможет нормально вытаскивать из картинок данбуру-теги (надеюсь). Пока попробуй

https://huggingface.co/spaces/pharma/CLIP-Interrogator
или, лучше, локально
https://github.com/KichangKim/DeepDanbooru