FinBERT ist ein großes Sprachmodell (Large Language Model oder LLM) auf Basis von BERT (Bidirectional Encoder Representations from Transformers) aus dem Hause Google. BERT-Modelle werden bei Sprachaufgaben oft eingesetzt, etwa, um das nächste Wort in einer Textnachricht oder in einer E-Mail zu prognostizieren oder Chatbots bei der Beantwortung von Fragen zu helfen. FinBERT wurde mit einem großen Finanztexte-Corpus verfeinert und dann mit dem FinancialPhraseBank-Datensatz von Malo et al. (2014)2 darauf trainiert, Stimmungen zu prognostizieren. Durch die Feinanpassung wird das Sprachentschlüsselungsmodul von FinBERT mit dem Finanzjargon vertrauter, und das Stimmungsmodul bringt ihm bei, Stimmungen als positiv oder negativ zu klassifizieren. Große Sprachmodelle bestehen aus unterschiedlichen neuronalen Netzwerken (Layers) bzw. Rechenmodulen, die gemeinsam den Input auswerten. So lassen sich die Einschätzungen der Schreiber erfassen.
BERT wurde als Sprachmodell entwickelt, um Sprache zu entschlüsseln und zu prognostizieren. Es wurde darauf trainiert, Wörter und Sätze sowie die Beziehungen zwischen ihnen zu erkennen. Durch die Feinanpassung mit finanzspezifischen Texten und das Stimmungsmodell kann FinBERT anders als BERT nicht nur englische Alltagssprache verstehen, sondern auch die Stimmung von Finanztexten erfassen. Weitere Stärken von FinBERT sind die Unabhängigkeit vom Wörterbuch und die Fähigkeit, Kontext und komplexe Beziehungen zu erfassen, was Bag-of-Words-Ansätze nicht leisten. Ein Nachteil ist allerdings die höhere Komplexität. Außerdem lässt sich nicht immer leicht erkennen, was genau zu welchem Score führt. Einzelheiten über die Entwicklung von FinBERT finden Sie bei Araci (2019).3
Eines ist aber wichtig: FinBERT ist zwar ein großes Sprachmodell, aber keine generative KI wie ChatGPT. Es gibt daher nicht die gleichen Stabilitätsprobleme wie bei ChatGPT, also keine Halluzinationen. Beim selben Input liefert FinBERT stets dasselbe Ergebnis.
Vergleich der Modelle anhand der Einzelwertstudie eines MFS-Analysten
Beim Vergleich der beiden Modelle haben wir darauf geachtet, ob sie Stimmungen effektiv messen können und die Scores Mehrertrag ermöglichen, wenn man sie systematisch als quantitativen Faktor nutzt. Die Erträge des FinBERT-Modells waren höher als die des Bag-of-Words-Modells. Der wichtigste Unterschied ist unserer Ansicht nach aber, dass die Stimmungseinschätzungen von FinBERT eher menschlichen Einschätzungen entsprechen. Das Modell liest Einzelwertanalysen also eher so wie ein Mensch.
Nehmen wir als Beispiel die folgende Kurzanalyse eines MFS-Analysten zu einem amerikanischen Technologie- und Rüstungsunternehmen aus dem November 2016:
Absatz 1: “Posted an in-line quarter after normalizing the tax rate. Organic revs were down 2%, but the rate of decline appears to have bottomed. Orders were strong with B2B 1.17x.
Absatz 2: I had been worried about high margin tactical radio sales, and this quarter increased for the first time in three quarters, with B2B 1.22x versus 0.92x last quarter. I caution bookings across all its businesses, which are lumpy, but this is enough evidence for me that things are bottoming. International radio bookings increased almost 30% sequentially. The US radio business was always set to grow in 2018 given the wins, but now the ensuing bathtub doesn’t look so deep. The rest of the business should start to grow organically, and portfolio pruning continues. (Sorgen machten mir die margenstarken taktischen Radioumsätze. Erster Anstieg seit drei Quartalen, B2B 1,22 ggü. 0,92 im Vorquartal. Ich mahne in allen Sparten zur Vorsicht, alles dürftig, aber genug Anzeichen dafür, dass Tiefpunkt erreicht. Radioumsatz um fast 30% höher als im Vorquartal. US-Radioumsatz sollte 2018 schon immer wachsen, wegen des Neugeschäfts; das Tal scheint nicht so tief. Die übrigen Geschäftsbereiche dürften allmählich wieder organisch wachsen, das Produktportfolio wird weiter bereinigt.)
Absatz 3: The team continues to execute the synergy plan (margins +50 bps to 13.7%), while the declines in the total business are rapidly decelerating. Valuation still looks okay at 17x CY17.1 see a pathway to $1B run rate FCF by next year, which places the shares at approximately 8% yield. Upgrade to a 1. (Das Team setzt seinen Synergieplan weiter um (Margen +50 Basispunkte auf 13,7%). Das Schrumpfen des Gesamtgeschäfts lässt schnell nach. Bewertungen scheinen mit dem 17-Fachen der Gewinne im Kalenderjahr 2017 noch immer ok. Ende nächsten Jahres könnte laufender Cashflow auf 1 Mrd. USD steigen; Gewinnrendite wäre dann etwa 8%. Heraufstufung auf Kaufen.)
Der Analyst beurteilt das Unternehmen eindeutig positiv. Er beschreibt die Aussichten als gut und stellt ein Kaufen-Rating in Aussicht. FinBERT bewertet diese Analyse als eindeutig positiv. Das Bag-of-Words-Modell sieht sie aber negativ.
Abbildung 2: Die Bewertungen von FinBERT und Bag-of-Words nach Absätzen
|
FinBERT Score |
FinBERT Einschätzung |
Bag-of-Words Score |
Bag-of-Words Einschätzung |
Absatz 1 |
-0.58 |
Negativ |
-0,08 |
Negativ |
Absatz 2 |
0,90 |
Positiv |
-0,04 |
Negativ |
Absatz 3 |
0,82 |
Positiv |
-0,05 |
Negativ |
Gesamt |
0,38 |
Positiv |
-0,06 |
Negativ |
Anmerkung: FinBERT und Bag-of-Words arbeiten mit unterschiedlichen Skalen. Beide haben als Mittelwert null, wobei „fast null“ neutral ist. Positive Zahlen stehen für eine positive Einschätzung, negative für eine negative Einschätzung.
Beide Modelle schätzen den ersten Absatz wegen des Satzes „organic revs were down“ negativ ein. Das FinBERT-Modell erkennt dann aber die positiven Einschätzungen in den beiden folgenden Absätzen. Bag-of-Words bleibt bei einer neutralen Einschätzung vieler Sätze, da keiner der dort verwendeten Begriffe in Loughrans und McDonalds Finanzwörterbuch enthalten ist. Dadurch können wichtige Hinweise übersehen werden. Sätze wie „upgrade to a 1“, „the rest of the business should start to grow organically“ und „international radio bookings increased almost 30% sequentially“ gelten im Bag-of-Words-Modell als neutral, weil das Wörterbuch keinen der dort verwendeten Begriffe enthält. FinBERT erkennt hingegen richtigerweise, dass alle diese Aussagen positiv gemeint sind, und erfasst daher, dass positive Formulierungen in der Analyse überwiegen.
Die Ergebnisse eines Bag-of-Words-Modells können stark vom verwendeten Wörterbuch abhängen. Bei kürzeren Analysen wie dieser können einige wenige Sätze große Auswirkungen auf den Score haben, wenn das Modell die meisten als neutral bewertet. FinBERT scheint die Einschätzung hingegen eher so zu erfassen wie ein Mensch. Manche Wörter und Sätze in diesem Beispiel könnten als negativ gelten – doch entscheidend ist, dass der Analyst, der sie geschrieben hat, die Aktie insgesamt positiv einschätzt.
Genauigkeit im Vergleich
Wir haben auch untersucht, wo sich die Einschätzungen der beiden Modelle am stärksten unter-scheiden – und bewerteten diese Analysen auch selbst. Die FinBERT-Scores waren nicht nur stärker mit unserer eigenen Sicht korreliert, sondern stimmten auch in 85% der Fälle mit unseren eigenen positiven oder negativen Scores überein.
Abbildung 3: Modellergebnisse und Ergebnisse unseres Quant-Teams im Vergleich
|
FinBERT Score |
Bag-of-Words |
Korrelation mit der Teameinschätzung |
0,43 |
0,22 |
Trefferquote |
85% |
38% |
Vorteil Blended Research
FinBERT ist ein komplexes und effektives Instrument zur Beurteilung von Analysteneinschätzungen. Noch wichtiger als FinBERT selbst sind aber die Analysen, die es nutzt. Die Sentiment Scores werden mit einer Datenbank gewonnen, die das Research unserer Fundamentalanalysten für Aktien enthält und nur MFS-Mitarbeitern zur Verfügung steht. Wir meinen, auf diese Weise ein differenziertes Alphasignal erzeugen zu können, das die Einschätzungen unserer Fundamentalanalysten abbildet.
Anmerkungen
1 „Sentiment“ hat hier nichts mit der Marktstimmung zu tun, die der „Sentiment Factor“ des quantitativen Alphamodells von MFS Blended Research abbildet. Hier geht es um das Gesamtbild, das ein Text vermittelt.
2 R. Malo, A. Sinha, R. Korhonen, J. Wallenius, R. Takala (2014): „Good Debt or Bad Debt“, J Assn Inf Sci Tec, 65: 782–796, https://d0i.0rg/l 0.1002/asi. 23062.
3 D. Araci: „Finbert: Financial sentiment analysis with pre-trained language models“, arXiv preprint arXiv: 1908.10063,2019.
Die hier dargestellten Meinungen sind die des Autors/der Autoren und können sich jederzeit ändern. Sie dienen ausschließlich Informationszwecken und dürfen nicht als Empfehlung zum Kauf von Wertpapieren, Aufforderung oder als Anlageberatung verstanden werden. Prognosen sind keine Garantien. Die Wertentwicklung der Vergangenheit ist keine Garantie für künftige Ergebnisse.
Die Investmentanalysen von MFS, seine quantitativen Modelle und deren Nutzung sowie die Einzelwertauswahl erzielen möglicherweise nicht die gewünschten Ergebnisse. Sie können auch dazu führen, dass sich das Portfolio aufgrund seiner Struktur schlechter entwickelt als andere Fonds, die eine ähnliche Strategie verfolgen, und/oder hinter den Märkten zurückbleibt, in die es investiert. Die mit quantitativen Modellen (eigenen oder denen Dritter) ausgewählten Anlagen erzielen möglicherweise nicht die gewünschten Ergebnisse. Mögliche Gründe sind: Modellfaktoren, Faktorgewichtungen, Änderungen der Ertragsquellen und der Faktoren der Vergangenheit sowie technische Probleme mit der Entwicklung, der Umsetzung oder der Pflege der Modelle (z.B. unvollständige oder unrichtige Daten, Programmier- oder andere Softwareprobleme, Codierungsfehler und technische Ausfälle).