Während die lokalen Medien noch hauptsächlich über die KI DeepSeek R1 des chinesischen Hedge-Funds „High-Flyer“ berichten, rollt bereits die nächste Welle mit dem QwQ-32B KI-Modell des Alibaba Konzerns heran (dem chinesischen Pendent zu amazon). QwQ-32B is eine leistungsfähige KI, die „nachdenken“ kann, und nicht nur in Cloud-Rechenzentren, sondern bereits auf guten Laptops läuft. Und das alles mit einem kleinen Bruchteil des Energiebedarfs.

Eine Charakteristik der aktuellen KI ist, dass sich die Kosten für äquivalente KI-Ergebnisse jedes Jahr mehr als halbieren. Damit war es auch absehbar, dass ein etwas abgespecktes Äquivalent zu openAI O1 (das im September 2024 vorgestellt wurde) ein Jahr später auch auf weit kleineren, billigeren Rechner laufen würde. Was aber die Fachwelt bei DeepSeek R1 überraschte, ist das es geschätzt weniger als 1/4 der Ressourcen benötigt und dass es bereits nach vier Monaten verfügbar war. Nebenbei auch, dass es nicht von einem der US-Konzerne sondern auch China kommt, und das es als open-weights Modell gratis verfügbar ist.
openAI O1 ist eine exzellente KI, die „nachdenken“ (reasoning) kann. Dieses Nachdenken erfordert drastisch mehr Zeit und Rechenleistung bei jeder Abfrage. Das ist angeblich von der benötigten Hardware her so teuer, dass chatGPT Pro um 200 $ pro Monat extra dafür eingeführt werden musste. DeepSeek R1 – auch ein nachdenkendes KI-model – braucht dramatisch weniger Ressourcen. Aber immer noch einen Rechner mit über 512GB ultraschnellem RAM und entsprechender Rechenleistung. Typischerweise kostet so eine NVIDIA H100 GPU mit 96 GB dafür ca. 40.000 €, es werden für DeepSeek R1 mindestens sechs Stück davon in einem Server benötigt. Mit Server, Stromversorgung, Kühlung, … sicher Investitionskosten jenseits von 300.000 €, und einem Stromverbrauch von über 5.000 W. Ein soeben neu vorgestellter, kleiner M3 Ultra Mac Studio Computer mit 512GB RAM und 520 GB/s Bandbreite ist zwar bei KI-Abfragen nur ca. 1/3 so schnell. Die damit mögliche KI-Genauigkeit ist wegen den “nur” 512GB auch etwas kleiner, aber er kostet „nur“ ca. 10.000 € und braucht max. 300 W. DeepSeek R1 läuft auf diesem Mac recht gut, und auch nicht mehr im anonymen Cloud-Rechenzentrum, sondern vertrauenswürdig, lokal, direkt am Schreibtisch.
Nun stellte das chinesische amazon-äquivalent Alibaba mit QwQ 32B eine fast 20x kleinere, open-weights/gratis „nachdenk“-KI vor, nur zwei Monate nach DeepSeek R1. QwQ 32B ist in manchen Aufgabenbereichen, wie z.B. Mathematik, vergleichbar mit OpenAI O1 bzw. DeepSeek R1, in anderen jedoch noch nicht so gut. Aber es läuft z.B. bereits auf einem M4 Pro Mac mini (oder MacBook Pro) mit 48GB RAM bei 273GB/s Bandbreite, um ca. 2.000€ und mit 35W Stromverbrauch. Es generiert dabei die Antworten mit respektablen 11 Wortteilen (token) pro Sekunde – schneller als man lesen kann. Aber natürlich zuerst mit einem Nachdenk-Teil vor der eigentlichen Antwort, und dieser kann durchaus mehrere Minuten dauern. Dafür kann man aber auch – anders als bei OpenAI O1 – beim Nachdenken der KI detailliert mitlesen (falls man das will).
Für mich persönlich ist dieses QwQ-32B die interessanteste KI-Innovation seit fast einem Jahr – seit der facebook-Mutterkonzern Llama-3, das erste gute, kleine KI-Modell, vorgestellt hatte.
Wie ist das Ganze möglich? Die KI-Modelle müssen angelernt werden. Ihr Wissen ist nicht programmert, sondern die KI-Modelle lernen aus riesigen Datenmengen. Diese Datenmengen sind in den letzten Jahren exponentiell gewachsen, damit die KI-Modelle immer besser werden. DeepSeek hat nun angeblich erfolgreich openAI KIs dafür verwendet, um die Qualität ihres Lernens zu heben. D.h. die KI nicht nur große Teile des Internets vorgesetzt, sondern auch gute, KI-generierte Beispiele. Ähnlich dazu, dass es sich besser aus einem guten Lehrbuch als bloss aus irgendwelchen Beispielen lernt. Nebenbei hat DeepSeek auch noch strukturelle Innovationen vorgenommen, um die KI-Abfragen zu beschleunigen, und diese auch publiziert. QwQ-32B verwendete nun wiederum DeepSeek R1, um die Qualität ihres weit kleineren KI-Modells (Qwen-32B, ein traditionelles KI-Modell ohne Nachdenkfähigkeiten) speziell fürs zusätzliche Nachdenken zu heben. D.h. es werden nun zunehmend die Fähigkeiten einer grossen KI, z.B. das Nachdenken, in eine etwas kleinere hinein-“destilliert”. Und ggf. zusätzliches Wissen angelernt – QwQ-32B ist z.B. bei vielen Mathematikproblemen sogar besser als DeepSeek R1.
Zusammenfassend:
Das KI-Entwicklungstempo beschleunigt sich zusehends durch den Wettstreit zwischen den USA und China. Die USA fokussieren eher auf Größe, KI-Qualität, und blockieren den Höchsttechnologieexport (z.B. die top NVIDIA GPUs). Die Chinesen fokussieren aktuell auf Kostenreduktion bei ausreichender Qualität. Momentan profitieren wir noch alle davon, weil die Chinesen und einige US-Konzerne ihre Ergebnisse auch als open-weights/open-source gratis zugänglich machen. Und einige dieser “gratis” KI-Modelle können bereits lokal auf guten Desktops und Laptops laufen. Mit Gratis-Programmen wie beispielsweise LM-Studio oder Ollama – Details dazu in anderen Beiträgen.
- Über den Autor
- Artikel
Retired Techie/Consultant/Marketer/Manager/Photographer. I enjoyed combining my technical background with marketing, analytics-insights and leadership to drive for business results. It also seems, that I have an eye for the beauty in people and photographic language.
Neueste Kommentare