"ENG: JPMorgan: recommends to weigh carefully both cases for \"similar threats\" (saturated market and worse economic climate).\n",
"DEU: JPMorgan: empfiehlt angesichts der ähnlichen Bedrohungen (gesättigter Markt und schlechteres Wirtschaftsklima) die Erwartungen in beiden Fällen zurückzusetzen\n",
"1046809 1046809\n",
"Zeile: 993209\n",
"Deutsch: Aber es muß auch darum gehen, Anreize zu schaffen für einen umweltfreundlichen lokalen öffentlichen Nahverkehr.\n",
"English: But it is also necessary to create incentives for environmentally friendly local public transport.\n",
"\n",
"Zeile: 459853\n",
"Deutsch: Vielleicht sollte er dramatisch verlangsamt werden?\n",
"English: Perhaps it should be slowed down dramatically?\n",
"\n",
"Zeile: 605086\n",
"Deutsch: Die Prämien haben im Übrigen durchaus positive grenzüberschreitende Wirkungen.\n",
"English: The incentives have also had a positive cross-border impact.\n",
"\n",
"1816\n",
"ENG: The charge that she concentrated too much on foreign affairs, she dismissed with a terribly presumptuous statement.\n",
"DEU: Den Vorwurf, dass sie sich zu sehr auf die Außenpolitik konzentriere, hat Angela Merkel mit einem arg überheblichen Satz zurückgewiesen.\n",
"\n",
"1846\n",
"ENG: One day after resigning as army chief, Pakistani ruler Musharraf was sworn in as president.\n",
"DEU: Einen Tag nach seinem Rücktritt als Armeechef ist der pakistanische Machthaber Musharraf als Präsident vereidigt worden.\n"
ENG: JPMorgan: recommends to weigh carefully both cases for "similar threats" (saturated market and worse economic climate).
DEU: JPMorgan: empfiehlt angesichts der ähnlichen Bedrohungen (gesättigter Markt und schlechteres Wirtschaftsklima) die Erwartungen in beiden Fällen zurückzusetzen
1046809 1046809
Zeile: 993209
Deutsch: Aber es muß auch darum gehen, Anreize zu schaffen für einen umweltfreundlichen lokalen öffentlichen Nahverkehr.
English: But it is also necessary to create incentives for environmentally friendly local public transport.
Zeile: 459853
Deutsch: Vielleicht sollte er dramatisch verlangsamt werden?
English: Perhaps it should be slowed down dramatically?
Zeile: 605086
Deutsch: Die Prämien haben im Übrigen durchaus positive grenzüberschreitende Wirkungen.
English: The incentives have also had a positive cross-border impact.
1816
ENG: The charge that she concentrated too much on foreign affairs, she dismissed with a terribly presumptuous statement.
DEU: Den Vorwurf, dass sie sich zu sehr auf die Außenpolitik konzentriere, hat Angela Merkel mit einem arg überheblichen Satz zurückgewiesen.
1846
ENG: One day after resigning as army chief, Pakistani ruler Musharraf was sworn in as president.
DEU: Einen Tag nach seinem Rücktritt als Armeechef ist der pakistanische Machthaber Musharraf als Präsident vereidigt worden.
Number of lines: (1046809, 1046809)
%% Cell type:markdown id:f2beddcc4122495a tags:
## 1. Text tokenization
%% Cell type:code id:d8ccbafa97fba573 tags:
``` python
# set up the tokenizer
fromtokenizersimportTokenizer
fromtokenizers.modelsimportBPE
fromtokenizers.trainersimportBpeTrainer
fromtokenizers.processorsimportTemplateProcessing
# setting the unknown token (e.g. for emojis)
tokenizer=Tokenizer(BPE(unk_token="[UNK]"))
# adding special tokens
# [UNK] : unknown word/token
# [CLS] : starting token (new sentence sequence)
# [SEP] : separator for chaining multiple sentences