Tip:
Highlight text to annotate it
X
Hallo, mein Name ist Maile Ohye und ich arbeite bei Google als Developer Programs Tech Lead.
Ich freue mich, auch im Namen meiner Kollegen und Kolleginnen bei Google, dass ich heute über dieses
Thema sprechen kann. Wir wissen um die Wichtigkeit eines
starken Ökosystems im News-Bereich,
ich hoffe deshalb, dass diese Präsentation etwas Nützliches für euch enthält.
Heute werden wir hauptsächlich über drei Themen sprechen: Zuerst, Ranking-Faktoren
bei der Google News-Suche.
Dann schauen wir uns einige der häufig gestellten Fragen an, die wir von Herausgebern
oder SEOs hören. Und als Letztes sprechen wir noch über Best Practices beim
Veröffentlichen von Artikeln. Schauen wir uns also zunächst an, wie eure Artikel in einem
Google-Suchergebnis erscheinen. Da gibt es mehrere Möglichkeiten. Als Erstes natürlich google.com,
wo User z. B. eine News-Onebox sehen könnten. Und diese Ansicht im oberen Screenshot zeigt euch ein News-Ergebnis
für eine Suche wie z. B. "Obama medals", wo dem User ein News-Artikel angezeigt wird.
Dies ist eine Art, wie euer Artikel in Google News auftauchen kann. Im zweiten Screenshot
geht ein User direkt auf news.google.com und sieht dort
eine ähnliche Sammlung an Artikeln - nicht auf der google.com Homepage, sondern auf der News-Homepage.
Ihr fragt euch jetzt vielleicht: "Wie sind diese Artikel dort aufgetaucht?"
Wir sammeln diese Artikel, indem wir sie zuerst crawlen, dann gruppieren
und schließlich die gesammelten Informationen ranken. Wir schauen uns jetzt mal jeden
dieser *** genauer an.
Lasst uns mit dem Crawling beginnen. Beim Crawling, ähnlich wie bei der Websuche,
gibt es einen Googlebot, der eure News-Sites besucht und nach neuen Artikeln sucht.
Dabei gibt es zwei Wege, wie wir diese Artikel finden können: Eine Möglichkeit ist unser
"Entdeckungs-Crawling", bei dem wir neue URLs finden und dann die entsprechenden Artikel crawlen -
aber neben diesem Crawling
könnt ihr auch News-Sitemaps erstellen. Die News-Sitemaps bieten euch die Möglichkeit,
exakt aufzulisten, was eure neuen URLs sind, so dass wir dies zusätzlich zu
unserem Entdeckungs-Crawling nutzen können, um eure neuen Informationen zu finden.
Natürlich befolgen wir das Robots-Exclusion-Protocol,
ihr könnt also eine robots.txt-Datei anlegen oder http-Header verwenden, um uns genau mitzuteilen,
welche Dokumente wir crawlen sollen und welche nicht in den Google-Suchergebnissen auftauchen sollen.
Schließlich, sobald wir gecrawlt haben und dabei sichergestellt haben, dass wir nur das gecrawlt haben,
was wir crawlen dürfen, bringen wir diese Artikel zu Google. Und das ist das Ende
der Crawling-Phase. Als nächstes geht es in die Gruppierungs-Phase, was die Stelle ist,
an der wir uns um die Klassifizierung kümmern. Bei der Klassifizierung schauen wir uns den Inhalt
jedes einzelnen Artikels an. Wir ihr an diesem Beispielartikel:
"The millions Kozlowski didn't steal" sehen könnt, picken wir dann
individuelle Worte heraus wie z. B. "business, "tycho", "money" oder "cfo",
und können daran erkennen, dass sich dieser Artikel wahrscheinlich auf ein Wirtschaftsthema bezieht.
So befüllen wir also die verschiedenen Bereiche in Google News wie z. B. Wirtschaft, Gesundheit oder Unterhaltung.
Ein weiterer Punkt ist: Wir befüllen unsere verschiedenen Ausgaben wie z. B. die UK-, US- oder indische Version.
Wir beziehen uns dabei auch auf den Text. Wir nehmen z. B. Worte wie
New York oder Manhattan und schließen daraus, dass sich der Artikel wahrscheinlich auf die
Vereinigten Staaten bezieht. Dies ist also die Gruppierungs-Phase, wo wir erkennen, worum es in einem Artikel geht
und auf welche Bereiche und lokale Ausgaben er sich bezieht.
Wir haben uns jetzt das Crawling und die Gruppierung angeschaut - jetzt fehlt noch das Ranking.
Das Ranking verläuft in zwei Phasen.
Zuerst kommt natürlich das Story-Ranking. Das Story-Ranking ist im Prinzip das, was ihr auf Google News seht,
wo es Gruppen von Artikeln gibt, z. B. zu Obama und der Medaillen-Zeremonie,
oder zum Tod von Michael Jackson, oder zum Anstieg des Ölpreises.
Das Story-Ranking bestimmt, welche dieser Geschichten höher platziert werden und welche als zweites und drittes kommen.
Also so in etwa - es geht also um diese Gruppen von Artikeln. Und wir ranken diese Artikelgruppen anhand
des gesamten redaktionellen Interesses. Schauen wir uns genauer an, was das bedeutet.
Im oberen Diagramm könnt ihr sehen, wie eine kleinere Geschichte einen geringen Effekt auf die Veröffentlichungsaktivität hat.
Nehmen wir an, in North Carolina verteilt jemand kostenlose Autos an alle Bedürftigen.
Das ist eine schöne Boulevard-Geschichte. Sie taucht vielleicht in einer Lokalzeitung auf und
wird vielleicht von einigen Agenturen verbreitet. Aber es ist trotzdem eine relativ kleine Geschichte, bei
der es nicht so viel gesammeltes redaktionelles Interesse gibt wie bei einer größeren Geschichte wie z. B.
dem Tod von Michael Jackson, was nicht nur lokal, sondern auch von überregionalen und internationalen Zeitungen
berichtet und von vielen Agenturen aufgegriffen wird mit vielen Leitartikeln und auch Folgeartikeln.
Ihr seht, dass diese Geschichte aufgrund des großen redaktionellen Interesses wahrscheinlich höher gerankt wird
als die Geschichte über die kostenlosen Autos.
Das ist das Story-Ranking. Wir ranken dabei also die Artikelgruppen. Der nächste Teil des Rankings
ist das Ranking der individuellen Artikel. Das Artikel-Ranking hilft uns dabei, eine Gruppe von Artikeln zu nehmen
z. B. über den Tod von Michael Jackson, und dann zu bestimmen, welcher der 200 Artikel dazu soll
für unsere User als Erster gerankt werden und was als Zweites und Drittes kommen.
Es gibt viele Signale, die in das Artikel-Ranking fließen, aber ich werde hier jetzt nur die vier
wichtigsten ansprechen. Zuerst gibt es "aktualisiert" und "neu". Für uns ist es wichtig,
dass ein Artikel aktuelle und substantielle Informationen zu einem Thema bietet. Und der Artikel muss
objektiv sein, um am Beginn einer Gruppe von Artikeln zu erscheinen. Presse-Veröffentlichungen, Satire oder Meinungsseiten
sind dafür nicht geeignet. Ein weiterer Faktor ist die Erkennung von Duplikaten und der "Neuheit". An diesem
Punkt versuchen wir, die Originalquelle von den Duplikaten mit denselben
Information zu unterscheiden. Wir verwenden dabei die Idee vom sogenannten Zitat-Ranking.
Bei einem Artikel können wir z. B. erkennen, dass die Geschichte zuerst von der Los Angeles Times besprochen wurde
und wenn später ein Artikel z. B. aus Washington diesen ersten Artikel der Los Angeles Times als
Quelle angibt, dann nimmt der Zitat-Rank für diese Geschichte Gestalt an.
Dieser Artikel der Los Angeles Times kann also jetzt evtl. ein höheres Ranking bekommen, weil Andere
den Artikel als Originalquelle zitieren. Ein weiterer Faktor ist die lokale und persönliche Relevanz.
Dies bezieht sich auf die individuellen Bereiche und die verschiedenen Ausgaben einer Veröffentlichung.
Wir wollen so erreichen, dass lokale Quellen mit größerer Relevanz höher gewichtet werden.
Wenn wir das wieder auf unser Beispiel mit den kostenlosen Autos in North Carolina anwenden,
dann ist es wahrscheinlich, dass wir eine Zeitung wie z. B. den Charlotte Observer haben und dabei wissen,
dass dieser Artikel eine höhere Autorität besitzt und deshalb kann dieser Artikel vielleicht innerhalb der
Artikelgrupppe höher gerankt werden. Das letzte Signal, dass ich zum Artikel-Ranking ansprechen möchte,
ist die Idee der "vertrauenswürdigen Quellen". Für uns ist die Auswahl einer vertrauenswürdigen Quelle keine
zufällige Entscheidung, sondern basiert auf Fakten. Anhand unserer Daten über einen längeren Zeitraum
können wir sehen, ob User eure Artikel gesehen haben und darauf geklickt haben. Angenommen, wir haben
fünf Artikel gelistet und eine große Anzahl an Usern wählte den dritten Artikel aus und ging zu dieser Quelle.
Dann kann das ein Signal dafür sein, dass diese Quelle tatsächlich für bestimmte Informationen
vertrauenswürdig ist - und im Laufe der Zeit können wir mehr und mehr erkennen, welche Veröffentlichungen
vertrauenswürdige Quellen sind. Allerdings nicht bezogen auf die gesamte Quelle, sondern nur
basierend auf Bereichen und Kategorien. Also etwas wie z. B. die Sporting News kann sehr vertrauenswürdig
für Sportnachrichten sein, aber nicht so sehr für Wirtschaftsthemen. Oder auch eine Quelle wie das Wall Street Journal
kann z. B. in den Vereinigten Staaten sehr vertrauenswürdige Informationen zu Wirtschaftsthemen liefern, aber
möglicherweise nicht in Indien. Diese vertrauenswürdigen Quellen beziehen sich also auf Bereiche und Ausgaben.
Es ist also eine sehr spezifische Sache, die wir uns anhand des gesammelten Nutzerverhaltens anschauen.
Diese sind nur vier der Signale, die wir beim Artikel-Ranking in der News-Suche verwenden.
Schauen wir uns als nächstes einige häufig gestellte Fragen an.
Ihr fragt euch vielleicht: "Was sind die Vorteile, wenn ich eine News-Sitemap einreiche?"
Nun, Sitemaps sind sowohl für uns als auch die Herausgeber sinnvoll.
Zunächst bieten sie euch größere Kontrolle darüber, welche
eurer Artikel in den Google News auftauchen. Dies liegt daran, wie vorher bereits erwähnt,
dass sie uns beim Entdeckungs-Crawling unterstützen und uns genau sagen, welche Artikel neu sind
und welche wir crawlen sollen. Außerdem sind News-Sitemaps super, weil sie uns dabei helfen,
Meta-Informationen zu euren Artikeln zu erfassen. Ihr braucht euch also nicht auf unsere Textextrahierung zu verlassen,
sondern könnt selbst z. B. ein Veröffentlichungsdatum nennen. Ebenso könnt ihr uns für die Kategorien
eures Artikels gute Hinweise anhand eines Keyword-Feldes geben.
Alles in allem sind wir der Meinung, dass News-Sitemaps für Herausgeber große Vorteile mit sich bringen.
Eine weitere häufig gestellte Frage ist: "Kann Googlebot unsere URLs mehr als einmal besuchen?"
Die Antwort ist: Ja, wir können URLs definitiv erneut crawlen, um Updates zu finden. Aber machen wir
zunächst einen Schritt zurück. Anfänglich kann Google euren neuen Content innerhalb einiger Minuten finden,
nachdem er veröffentlicht worden ist. Außerdem finden wir euren neuen Content bei unserem Endeckungs-Crawling
oder durch News-Sitemaps, und nach der ersten Entdeckung werden wir definitiv wieder zurückkommen und
nach neuem Artikel-Content schauen. Die Zeit, wann wir erneut crawlen, kann variieren - also die Rate
des erneuten Crawlings variiert, aber aber ihr könnt davon ausgehen, dass wir wahrscheinlich innerhalb
von 12 Stunden zurückkommen und nach neuem Content schauen. Wir finden den Content also innerhalb von Minuten
und crawlen ihn erneut etwa innerhalb von 12 Stunden.
Ihr fragt euch vielleicht: "Wie kann ich meinen Multimedia-Content optimieren?" Gute Frage!
Wir schauen uns mal zwei Arten von Content an. Zunächst einmal Videos. Bei Videos
könnt ihr einen YouTube-Kanal erstellen und diesen dann einreichen. Wir arbeiten daran,
weitere Video-Hoster miteinzubeziehen, aber im Moment haben wir erstmal einen guten Eindruck der
User-Erfahrung bei YouTube - dass Videos in der Regel laden etc., deshalb ist YouTube eine vertrauenswürdige
Video-Hosting Plattform für uns. Und falls ihr YouTube nutzt: Denkt daran, Textbeschreibungen und Transkripte
zu erstellen, weil dies dabei hilft, ein bestimmtes Video mit einem bestimmten Thema zu verknüpfen.
Nehmen wir uns jetzt mal Bilder vor.
Bei Bildern haben wir fünf Tipps, die euch helfen, eure Bilder in der Google News-Suche gelistet zu bekommen.
Erstens solltet ihr ein großes Bild mit einem vernünftigem Seitenverhältnis wählen.
Zweitens solltet ihr gute Beschreibungen und Alt-Text verwenden.
Drittens solltet ihr euer bestes Bild in der Nähe des Titels platzieren, was uns auch dabei hilft, das Bild
mit dem Inhalt zu verknüpfen.
Viertens solltet ihr euer gutes Bild inline haben und nicht als klickbare Version. Das gute Bild
sollte also nahe des Titels und inline sein. Und zuletzt: Wir bevorzugen JPG. Falls ihr also
Formate wie z. B. PNG nutzt, ist dies nicht so gut für Google News wie JPGs. Falls ihr eure Bilder
in den Google News haben möchtet, solltet ihr auf jeden Fall beim JPG-Format bleiben.
Die letzte häufig gestellte Frage ist natürlich: "Was ist mit PageRank?"
PageRank spielt bei Google News eine geringere Rolle als bei der Web-Suche. Was auch sinnvoll ist,
weil die Linkstruktur eines Artikels, der vor ein paar Minuten veröffentlicht wurde, naturgemäß eine andere
ist, als wenn der Artikel Monate oder Jahre alt ist. Wir müssen PR bei Google News
also vorsichtig verwenden. Anstelle der Signale wie PR nutzen wir daher andere Signale, wie die vorher erwähnten.
Signale wie z. B. Neuheit. Ist es aktuell und neu? Oder hat es eine lokale
oder persönliche Relevanz. Diese Sachen. Nachdem wir uns jetzt angeschaut haben, wie Google Artikel crawlt, gruppiert
und rankt sowie ein paar häufig gestellte Fragen besprochen haben,
schauen wir uns jetzt ein paar Best Practices an.
Zuerst ist es wichtig, dass ihr permanente eindeutige URLs mit mindestens 3 Ziffern verwendet.
Der Grund dafür ist, dass News-Publisher traditionell Artikel-IDs
verwendet haben und dies einer Nummer im URL-String entspricht. Dies hat uns dabei geholfen zu bestimmen,
ob es sich um einen Artikel oder eine statische HTML-Seite handelt. Falls euer
News-Publishing-System keine Nummern beinhaltet, zumindest 3 Ziffern bei Google News, dann könnt ihr auch
eine News-Sitemap einreichen. Das ist der Workaround. Falls ihr keine 3 Ziffern in euren
URLs habt, dann könnt ihr eine News-Sitemap erstellen und uns so wissen lassen, welche URLs genau den
News zuzuordnen sind. Der zweite Tipp ist, den Artikeltext nicht aufzuteilen. Euer News-Artikel sollte also
aus sequentiellen Absätzen bestehen, die alle in Google News angezeigt werden können.
Ihr solltet ihn nicht durch User-Kommentare oder Links zu ähnlichen Posts
oder Links zu ähnlichen Seiten aufbrechen. Das eignet sich nicht so gut für Google News.
Wir verwenden den gesamten Artikel auf der ersten Seite. Achtet also darauf, den Artikeltext nicht
aufzuteilen. Ein dritter Tipp ist, ein Datum zwischen dem Titel und dem Artikeltext zu platzieren.
Dies hilft unserer Datums-Extraktion, damit ein korrekter Veröffentlichungstermin angezeigt wird.
Viertens: Titel spielen eine Rolle. Dabei geht es um einen guten HTML-Titel als auch
den eigentlichen Titel im Artikel. Der Titel sollte sehr gut ausdrücken, um was es in dem Text geht.
Fünftens: Bei Google News ist es am besten, wenn ihr eure "einzigartigen" Artikel
von euren Pressemeldungen trennt. Ihr könnt dies z. B. über eine Verzeichnisstruktur erreichen.
Das hilft uns dabei, zu bestimmen, was tatsächlich News-Artikel sind im Gegensatz zu beispielsweise
Satire, Meinungsseiten oder Pressemeldungen. Der letzte Tipp ist natürlich, einzigartigen
und informativen Content zu erstellen. Dies hilft immer bei Fragen des Rankings.
Je mehr einzigartigen Content ihr erstellt und je mehr User dies schätzen, desto mehr
User werden wir dann zu diesem Content leiten - dies steht genau im Gegensatz zur Idee, einfach den Content
anderer zu veröffentlichen oder einfach nur doppelt vorhandene Informationen zu liefern. Also nochmal:
Je mehr Informationen ihr für alle zum Lesen anbietet, desto mehr User werden letztlich auf eure Site gelangen.
Falls ihr weitere Fragen habt, könnt ihr gern in unserer News (Verleger)-Hilfe vorbeischauen,
und danke fürs Anschauen des Videos.