4.4 визуализация информации в текстовых документах. Способы визуализации текстовой информации

В русскоязычном секторе интернета очень мало учебных практических примеров (а с примером кода ещё меньше) анализа текстовых сообщений на русском языке. Поэтому я решил собрать данные воедино и рассмотреть пример кластеризации, так как не требуется подготовка данных для обучения.

Большинство используемых библиотек уже есть в дистрибутиве Anaconda 3 , поэтому советую использовать его. Недостающие модули/библиотеки можно установить стандартно через pip install «название пакета».
Подключаем следующие библиотеки:

Import numpy as np import pandas as pd import nltk import re import os import codecs from sklearn import feature_extraction import mpld3 import matplotlib.pyplot as plt import matplotlib as mpl
Для анализа можно взять любые данные. Мне на глаза тогда попала данная задача: Статистика поисковых запросов проекта Госзатраты . Им нужно было разбить данные на три группы: частные, государственные и коммерческие организации. Придумывать экстраординарное ничего не хотелось, поэтому решил проверить, как поведет кластеризация в данном случае (забегая наперед - не очень). Но можно выкачать данные из VK какого-нибудь паблика:

Import vk #передаешь id сессии session = vk.Session(access_token="") # URL для получения access_token, вместо tvoi_id вставляете id созданного приложения Вк: # https://oauth.vk.com/authorize?client_id=tvoi_id&scope=friends,pages,groups,offline&redirect_uri=https://oauth.vk.com/blank.html&display=page&v=5.21&response_type=token api = vk.API(session) poss= id_pab=-59229916 #id пабликов начинаются с минуса, id стены пользователя без минуса info=api.wall.get(owner_id=id_pab, offset=0, count=1) kolvo = (info//100)+1 shag=100 sdvig=0 h=0 import time while h70): print(h) #не обязательное условие, просто для контроля примерного окончания процесса pubpost=api.wall.get(owner_id=id_pab, offset=sdvig, count=100) i=1 while i < len(pubpost): b=pubpost[i]["text"] poss.append(b) i=i+1 h=h+1 sdvig=sdvig+shag time.sleep(1) len(poss) import io with io.open("public.txt", "w", encoding="utf-8", errors="ignore") as file: for line in poss: file.write("%s\n" % line) file.close() titles = open("public.txt", encoding="utf-8", errors="ignore").read().split("\n") print(str(len(titles)) + " постов считано") import re posti= #удалим все знаки препинания и цифры for line in titles: chis = re.sub(r"(\<(/?[^>]+)>)", " ", line) #chis = re.sub() chis = re.sub("[^а-яА-Я ]", "", chis) posti.append(chis)
Я буду использовать данные поисковых запросов чтобы показать, как плохо кластеризуются короткие текстовые данные. Я заранее очистил от спецсимволов и знаков препинания текст плюс провел замену сокращений (например, ИП – индивидуальный предприниматель). Получился текст, где в каждой строке находился один поисковый запрос.

Считываем данные в массив и приступаем к нормализации – приведению слова к начальной форме. Это можно сделать несколькими способами, используя стеммер Портера, стеммер MyStem и PyMorphy2. Хочу предупредить – MyStem работает через wrapper, поэтому скорость выполнения операций очень медленная. Остановимся на стеммере Портера, хотя никто не мешает использовать другие и комбинировать их с друг другом (например, пройтись PyMorphy2, а после стеммером Портера).

Titles = open("material4.csv", "r", encoding="utf-8", errors="ignore").read().split("\n") print(str(len(titles)) + " запросов считано") from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") def token_and_stem(text): tokens = filtered_tokens = for token in tokens: if re.search("[а-яА-Я]", token): filtered_tokens.append(token) stems = return stems def token_only(text): tokens = filtered_tokens = for token in tokens: if re.search("[а-яА-Я]", token): filtered_tokens.append(token) return filtered_tokens #Создаем словари (массивы) из полученных основ totalvocab_stem = totalvocab_token = for i in titles: allwords_stemmed = token_and_stem(i) #print(allwords_stemmed) totalvocab_stem.extend(allwords_stemmed) allwords_tokenized = token_only(i) totalvocab_token.extend(allwords_tokenized)

Pymorphy2

import pymorphy2 morph = pymorphy2.MorphAnalyzer() G= for i in titles: h=i.split(" ") #print(h) s="" for k in h: #print(k) p = morph.parse(k).normal_form #print(p) s+=" " s += p #print(s) #G.append(p) #print(s) G.append(s) pymof = open("pymof_pod.txt", "w", encoding="utf-8", errors="ignore") pymofcsv = open("pymofcsv_pod.csv", "w", encoding="utf-8", errors="ignore") for item in G: pymof.write("%s\n" % item) pymofcsv.write("%s\n" % item) pymof.close() pymofcsv.close()


pymystem3

Исполняемые файлы анализатора для текущей операционной системы будут автоматически загружены и установлены при первом использовании библиотеки.

From pymystem3 import Mystem m = Mystem() A = for i in titles: #print(i) lemmas = m.lemmatize(i) A.append(lemmas) #Этот массив можно сохранить в файл либо "забэкапить" import pickle with open("mystem.pkl", "wb") as handle: pickle.dump(A, handle)


Создадим матрицу весов TF-IDF. Будем считать каждый поисковой запрос за документ (так делают при анализе постов в Twitter, где каждый твит – это документ). tfidf_vectorizer мы возьмем из пакета sklearn, а стоп-слова мы возьмем из корпуса ntlk (изначально придется скачать через nltk.download()). Параметры можно подстроить как вы считаете нужным – от верхней и нижней границы до количества n-gram (в данном случае возьмем 3).

Stopwords = nltk.corpus.stopwords.words("russian") #можно расширить список стоп-слов stopwords.extend(["что", "это", "так", "вот", "быть", "как", "в", "к", "на"]) from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer n_featur=200000 tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=10000, min_df=0.01, stop_words=stopwords, use_idf=True, tokenizer=token_and_stem, ngram_range=(1,3)) get_ipython().magic("time tfidf_matrix = tfidf_vectorizer.fit_transform(titles)") print(tfidf_matrix.shape)
Над полученной матрицей начинаем применять различные методы кластеризации:

Num_clusters = 5 # Метод к-средних - KMeans from sklearn.cluster import KMeans km = KMeans(n_clusters=num_clusters) get_ipython().magic("time km.fit(tfidf_matrix)") idx = km.fit(tfidf_matrix) clusters = km.labels_.tolist() print(clusters) print (km.labels_) # MiniBatchKMeans from sklearn.cluster import MiniBatchKMeans mbk = MiniBatchKMeans(init="random", n_clusters=num_clusters) #(init="k-means++", ‘random’ or an ndarray) mbk.fit_transform(tfidf_matrix) %time mbk.fit(tfidf_matrix) miniclusters = mbk.labels_.tolist() print (mbk.labels_) # DBSCAN from sklearn.cluster import DBSCAN get_ipython().magic("time db = DBSCAN(eps=0.3, min_samples=10).fit(tfidf_matrix)") labels = db.labels_ labels.shape print(labels) # Аггломеративная класстеризация from sklearn.cluster import AgglomerativeClustering agglo1 = AgglomerativeClustering(n_clusters=num_clusters, affinity="euclidean") #affinity можно выбрать любое или попробовать все по очереди: cosine, l1, l2, manhattan get_ipython().magic("time answer = agglo1.fit_predict(tfidf_matrix.toarray())") answer.shape
Полученные данные можно сгруппировать в dataframe и посчитать количество запросов, попавших в каждый кластер.

#k-means clusterkm = km.labels_.tolist() #minikmeans clustermbk = mbk.labels_.tolist() #dbscan clusters3 = labels #agglo #clusters4 = answer.tolist() frame = pd.DataFrame(titles, index = ) #k-means out = { "title": titles, "cluster": clusterkm } frame1 = pd.DataFrame(out, index = , columns = ["title", "cluster"]) #mini out = { "title": titles, "cluster": clustermbk } frame_minik = pd.DataFrame(out, index = , columns = ["title", "cluster"]) frame1["cluster"].value_counts() frame_minik["cluster"].value_counts()
Из-за большого количества запросов не совсем удобно смотреть таблицы и хотелось бы больше интерактивности для понимания. Поэтому сделаем графики взаимного расположения запросов относительного друг друга.

Сначала необходимо вычислить расстояние между векторами. Для этого будет применяться косинусовое расстояние. В статьях предлагают использовать вычитание из единицы, чтобы не было отрицательных значений и находилось в пределах от 0 до 1, поэтому сделаем так же:

From sklearn.metrics.pairwise import cosine_similarity dist = 1 - cosine_similarity(tfidf_matrix) dist.shape
Так как графики будут двух-, трехмерные, а исходная матрица расстояний n-мерная, то придется применять алгоритмы снижения размерности. На выбор есть много алгоритмов (MDS, PCA, t-SNE), но остановим выбор на Incremental PCA. Этот выбор сделан в следствии практического применения – я пробовал MDS и PCA, но оперативной памяти мне не хватало (8 гигабайт) и когда начинал использоваться файл подкачки, то можно было сразу уводить компьютер на перезагрузку.

Алгоритм Incremental PCA используется в качестве замены метода главных компонентов (PCA), когда набор данных, подлежащий разложению, слишком велик, чтобы разместиться в оперативной памяти. IPCA создает низкоуровневое приближение для входных данных, используя объем памяти, который не зависит от количества входных выборок данных.

# Метод главных компонент - PCA from sklearn.decomposition import IncrementalPCA icpa = IncrementalPCA(n_components=2, batch_size=16) get_ipython().magic("time icpa.fit(dist) #demo =") get_ipython().magic("time demo2 = icpa.transform(dist)") xs, ys = demo2[:, 0], demo2[:, 1] # PCA 3D from sklearn.decomposition import IncrementalPCA icpa = IncrementalPCA(n_components=3, batch_size=16) get_ipython().magic("time icpa.fit(dist) #demo =") get_ipython().magic("time ddd = icpa.transform(dist)") xs, ys, zs = ddd[:, 0], ddd[:, 1], ddd[:, 2] #Можно сразу примерно посмотреть, что получится в итоге #from mpl_toolkits.mplot3d import Axes3D #fig = plt.figure() #ax = fig.add_subplot(111, projection="3d") #ax.scatter(xs, ys, zs) #ax.set_xlabel("X") #ax.set_ylabel("Y") #ax.set_zlabel("Z") #plt.show()
Перейдем непосредственно к самой визуализации:

From matplotlib import rc #включаем русские символы на графике font = {"family" : "Verdana"}#, "weigth": "normal"} rc("font", **font) #можно сгенерировать цвета для кластеров import random def generate_colors(n): color_list = for c in range(0,n): r = lambda: random.randint(0,255) color_list.append("#%02X%02X%02X" % (r(),r(),r())) return color_list #устанавливаем цвета cluster_colors = {0: "#ff0000", 1: "#ff0066", 2: "#ff0099", 3: "#ff00cc", 4: "#ff00ff",} #даем имена кластерам, но из-за рандома пусть будут просто 01234 cluster_names = {0: "0", 1: "1", 2: "2", 3: "3", 4: "4",} #matplotlib inline #создаем data frame, который содержит координаты (из PCA) + номера кластеров и сами запросы df = pd.DataFrame(dict(x=xs, y=ys, label=clusterkm, title=titles)) #группируем по кластерам groups = df.groupby("label") fig, ax = plt.subplots(figsize=(72, 36)) #figsize подбирается под ваш вкус for name, group in groups: ax.plot(group.x, group.y, marker="o", linestyle="", ms=12, label=cluster_names, color=cluster_colors, mec="none") ax.set_aspect("auto") ax.tick_params(axis= "x", which="both", bottom="off", top="off", labelbottom="off") ax.tick_params(axis= "y", which="both", left="off", top="off", labelleft="off") ax.legend(numpoints=1) #показать легенду только 1 точки #добавляем метки/названия в х,у позиции с поисковым запросом #for i in range(len(df)): # ax.text(df.ix[i]["x"], df.ix[i]["y"], df.ix[i]["title"], size=6) #показать график plt.show() plt.close()
Если раскомментировать строку с добавлением названий, то выглядеть это будет примерно так:

Пример с 10 кластерами


Не совсем то, что хотелось бы ожидать. Воспользуемся mpld3 для перевода рисунка в интерактивный график.

# Plot fig, ax = plt.subplots(figsize=(25,27)) ax.margins(0.03) for name, group in groups_mbk: points = ax.plot(group.x, group.y, marker="o", linestyle="", ms=12, #ms=18 label=cluster_names, mec="none", color=cluster_colors) ax.set_aspect("auto") labels = tooltip = mpld3.plugins.PointHTMLTooltip(points, labels, voffset=10, hoffset=10, #css=css) mpld3.plugins.connect(fig, tooltip) # , TopToolbar() ax.axes.get_xaxis().set_ticks() ax.axes.get_yaxis().set_ticks() #ax.axes.get_xaxis().set_visible(False) #ax.axes.get_yaxis().set_visible(False) ax.set_title("Mini K-Means", size=20) #groups_mbk ax.legend(numpoints=1) mpld3.disable_notebook() #mpld3.display() mpld3.save_html(fig, "mbk.html") mpld3.show() #mpld3.save_json(fig, "vivod.json") #mpld3.fig_to_html(fig) fig, ax = plt.subplots(figsize=(51,25)) scatter = ax.scatter(np.random.normal(size=N), np.random.normal(size=N), c=np.random.random(size=N), s=1000 * np.random.random(size=N), alpha=0.3, cmap=plt.cm.jet) ax.grid(color="white", linestyle="solid") ax.set_title("Кластеры", size=20) fig, ax = plt.subplots(figsize=(51,25)) labels = ["point {0}".format(i + 1) for i in range(N)] tooltip = mpld3.plugins.PointLabelTooltip(scatter, labels=labels) mpld3.plugins.connect(fig, tooltip) mpld3.show()fig, ax = plt.subplots(figsize=(72,36)) for name, group in groups: points = ax.plot(group.x, group.y, marker="o", linestyle="", ms=18, label=cluster_names, mec="none", color=cluster_colors) ax.set_aspect("auto") labels = tooltip = mpld3.plugins.PointLabelTooltip(points, labels=labels) mpld3.plugins.connect(fig, tooltip) ax.set_title("K-means", size=20) mpld3.display()
Теперь при наведении на любую точку графика всплывает текст с соотвествующим поисковым запросом. Пример готового html файла можно посмотреть здесь: Mini K-Means

Если хочется в 3D и с изменяемым масштабом, то существует сервис Plotly , который имеет плагин для Python.

Plotly 3D

#для примера просто 3D график из полученных значений import plotly plotly.__version__ import plotly.plotly as py import plotly.graph_objs as go trace1 = go.Scatter3d(x=xs, y=ys, z=zs, mode="markers", marker=dict(size=12, line=dict(color="rgba(217, 217, 217, 0.14)", width=0.5), opacity=0.8)) data = layout = go.Layout(margin=dict(l=0, r=0, b=0, t=0)) fig = go.Figure(data=data, layout=layout) py.iplot(fig, filename="cluster-3d-plot")


Результаты можно увидеть здесь: Пример

И заключительным пунктом выполним иерархическую (аггломеративную) кластеризацию по методу Уорда для создания дендограммы.

In : from scipy.cluster.hierarchy import ward, dendrogram linkage_matrix = ward(dist) fig, ax = plt.subplots(figsize=(15, 20)) ax = dendrogram(linkage_matrix, orientation="right", labels=titles); plt.tick_params(\ axis= "x", which="both", bottom="off", top="off", labelbottom="off") plt.tight_layout() #сохраним рисунок plt.savefig("ward_clusters2.png", dpi=200)
Выводы

К сожалению, в области исследования естественного языка очень много нерешённых вопросов и не все данные легко и просто сгруппировать в конкретные группы. Но надеюсь, что данное руководство усилит интерес к данной теме и даст базис для дальнейших экспериментов.

САМОЕ ГЛАВНОЕ

Известно, что текстовая информация воспринимается человеком лучше, если она визуализирована - организована в виде списков, таблиц, диаграмм, снабжена иллюстрациями (фотографиями, рисунками, схемами).

Всевозможные перечни в документах оформляются с помощью списков. По способу оформления различают нумерованные и маркированные списки. Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов; маркированный - когда порядок следования пунктов в нём не важен. По структуре различают одноуровневые и многоуровневые списки.

Для описания ряда объектов, обладающих одинаковыми наборами свойств, наиболее часто используются таблицы, состоящие из столбцов и строк. Представленная в таблице информация наглядна, компактна и легкообозрима.


В современных текстовых процессорах предусмотрены возможности включения, обработки и создания графических объектов.

Вопросы и задания

1. С какой целью разработчики включают в текстовые документы списки, таблицы, графические изображения?

2. Для чего используются списки? Приведите примеры.

3. Сравните нумерованные и маркированные списки. Что у них общего? В чём различие?

4. Какой список называется многоуровневым? Приведите пример такого списка?

5. Какая информация может быть организована в табличной форме? Какие преимущества обеспечивает табличное представле ние информации?

6. Каких правил следует придерживаться при оформлении таблиц?

7. Какие графические объекты могут быть включены в текстовый документ?

8. Перечислите основные возможности текстовых процессоров по работе с графическими объектами.

Инструменты распознавания текстов

И компьютерного перевода

Ключевые слова;

Программы распознавания документов

Компьютерные словари

Программы-переводчики

Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией.

4.5.1. Программы оптического

Распознавания документов

Очень часто возникает необходимость ввести в компьютер несколь ко страниц текста из книги, статью из журнала или газеты и т. д. Конечно, можно затратить определённое время и просто набрать этот текст с помощью клавиатуры. Но чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.

Судите сами. Предположим, кто-то из ваших одноклассников, освоивших клавиатурный тренажёр, может вводить текстовую ин формацию со скоростью 150 символов в минуту. Выясним, сколько времени ему понадобится для того, чтобы ввести в память компьюте ра текст романа А. Дюма «Три мушкетёра». Одно из изданий этого романа выполнено на 590 страницах; каждая страница содержит 48 строк, в каждую строку входит в среднем 53 символа.



Вычислим общее количество символов в романе: 590 48 53 1 500 960 (симв.).

Вычислим время, необходимое для ввода этого массива символов в память компьютера: 1500960: 150 10000 (мин.). А это приблизительно 167 часов.

При этом мы не обсуждаем вопрос о времени на исправление возможных ошибок при таком способе ввода текста, не принимаем в расчёт усталость человека.

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов. Одной из наиболее известных программ такого типа является АВВУУ FineReader. Упрощённо работу с подобными программами можно представить так:

1. Бумажный носитель помещается под крышку сканера.


В программе отдаётся команда Сканировать и распознать. Сначала создаётся цифровая копия исходного документа в формате графического изображения. Затем программа анализирует структуру документа, выделяя на его страницах блоки текста, табли цы, картинки и т. п. Строки разбиваются на слова, а слова - на отдельные буквы. После этого программа сравнивает найденные символы с шаблонными изображениями букв и цифр. хранящи мися в её памяти. Программа рассматривает различные вариан ты разделения строк на слова и слов на символы. В программу встроены словари, обеспечивающие более точный анализ и распознавание, а также проверку распознанного текста. Проанализировав огромное число возможных вариантов, программа принимает окончательное решение и выдает пользователю распоанапный текст.

З. Распознанный текст переносится в окно текстового редактора (например, Microsoft Word).

Вместо сканера можно использовать цифровой фотоаппарат или камеру мобильного телефона. Например, при работе с книгами в библиотеке вы можете сфотографировать интересующие вас страницы. Скопировав снимки на компьютер, вы можете запустить АВВУУ FineReader, распознать тексты и продолжить работу с ними в текстовом процессоре (рис. 4.20).

Рис. 4.20. Оптическое распознавание документов

4.5.2. Компьютерные словари

И программы-переводчики

Возможности современных компьютеров по хранению больших массивов данных и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков.

В обычном словаре, содержащем несколько сотен страниц, поиск нужного слова является длительным и трудоёмким процессом. Компьютерные словари обеспечивают мгновенный поиск словарных статей. Многие словари предоставляют пользователям возможность прослушивания слов в исполнении носителей языка.

Компьютерны е словари (русско-английские и англо-русские, русс ко-французские, русско-немецкие и др.) могут быть установлены на компьютер как самостоятельны е программы, бывают встроены в текстовые процессоры, существуют в оп-йпе-режиме в сети Интернет.

Www Сервис Яндекс-словари (http://slovari.yandex.ru/) обеспечивает перевод слов с семи иностранных языков на русский и обратно. Вы можете получить полную информацио о правильном произношении и написании иностранных слов, синонимах и примерах использования.

Компьютерные словари ВЫПоЛНЯЮт перевод отдельных слов и сло восочетаний. Для перевода текстовых документов применяются программы-переводчики. Они основаны на формальном знании языка - правил словообразования и правил построения предложений. Программа-переводчик сначала анализирует текст на исходном языке, а затем конструирует этот текст на том языке, на который его требуется перевести.

С помощью программ-переводчиков можно успешно переводить техническую документацию, деловую переписку и другие текстовые материалы, написанные «сухим» языком. Перевод художественных текстов, эмоционально окрашенных, богатых гиперболами, метафорами и др., в полной мере может выполнить только человек.

Сервис Переводчик текста (http://www.translate.ru/[)efault.aspxnext) предназначен для автоматизированного перевода небольших (не более 3000 символов) фрагментов текстовой информации с одного языка на другой. В нём поддерживаются английский, русский, немецкий, французский, испанский, португальский, итальянский и литовский языки; обеспечивается 26 направлений перевода (англо-русский и русско-английский; немецко-русский и русско-немецкий; французско-русский и русско-французский и т. д.).

Распознавание текстов и компьютерный перевод

САМОЕ ГЛАВНОЕ

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов.

Возможности современных компьютеров по хранению больших массивов информации и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков. Компьютерные словари выполняют перевод отдельных слов и словосочетаний. Для перевода текстовых документов применяются программы-переводчики.

Вопросы и задания

1. В каких случаях программы распознавания текста экономят время и силы человека?

2. Сколько времени потребуется для ввода в память компьютера текста романа Л. Дюма «Три мушкетёра» с помощью сканера и программы АВВУУ FineReader, если известно, что на сканирование одной страницы уходит З с, на смену страницы в сканере - 5 с, на распознавание страницы - 2 с?

З. Найдите в Интернете информацию о технологии сканирующего листания. В чём её суть?

4. Какие, по вашему мнению, основные преимущества компьютерных словарей перед обычными словарями в форме книг?

5. Почему программы-переводчики успешно переводят деловые документы, но не годятся для перевода текстов художествен ных произведений?

6. С помощью имеющейся в вашем распоряжении программы-переводчика переведите на знакомый вам иностранный язык фразу: «Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией». Полученный результат с помощью той же программы переведите на русский язык. Сравните текст исходной фразы и конечный результат. Дайте свои комментарии.

Оценка количественных параметров

Текстовых документов

Ключевые слова:

Кодовая таблица

Восьмиразрядный двоичный код

Информационный объём текста

Конспект урока по информатике в условиях реализации ФГОС

«Визуализация информации в текстовых документах»

Класс: 7.

Тип урока: изучение нового материала, первичное закрепление.

Форма урока: фронтальная работа с классом, компьютерный практикум.

Метод: объяснительно-иллюстративный.

Цель урока: научиться использовать операции форматирования при создании текстового документа.

Задачи урока :

    Предметные:

- сформировать представление о визуализации информации в текстовых документах;

- познакомить учащихся со списками, с их видами;

- научить составлять маркированные и нумерованные списки;

Познакомить учащихся с таблицами;

Научить применять таблицы в текстовых документах.

    Метапредметные :

- формирование приемом логического мышления ;

- развитие навыков и умений работать со списками и таблицами;

- развитие интереса к предмету, информационной культуры;

- формирование УУД (личностных, регулятивных, познавательных);

- развивать способность анализировать и обобщать, делать выводы, расширение кругозора.

    Личностные :

Воспитание усидчивости, самостоятельности, интереса к предмету;

Привить навык индивидуальной работы;

Развитие коммуникативных УУД.

Оборудование: проектор, презентация «Визуализация информации в текстовых документах», ПК, карточки с практической работой, тетрадь, учебник.

Структура урока:

    Организационный этап.

    Актуализация знаний.

    Изложение нового материала.

    Первичное закрепление (практическая работа).

    Итог урока, рефлексия.

Этапы урока

Задачи этапа

Деятельность учителя

Деятельность учащихся

Формируемые УУД

1.Организационный этап.

Создание благоприятного климата на уроке.

Приветствую учащихся, проверяю готовность к учебному занятию, организую внимание детей.

Приветствуют учителя, проверяют наличие учебного материала на столах, организует свое рабочее место.

Коммуникативные: планирование учебного сотрудничества со сверстниками.

Личностные: психологическая готовность учащихся к уроку, самоопределение.

2. Актуализация знаний.

Актуализация опорных знаний и способов действий. Формулирование темы и цели урока.

На прошлых уроках мы с вами познакомились с двумя видами форматирования: стилевое и прямое. На дом я вам задавала учить все то, что касается форматирования. Начнем с того, что вообще такое форматирование? Ответ детей: процесс его оформления. Какие два способа форматирования существуют? Ответ детей: прямое и стилевое. К чему применяют прямое форматирование, его особенность? Ответ детей: применяют к произвольным символьным фрагментам (символы, слова, строки, предложения) и абзацы. К чему применяют стилевое форматирование, его особенность? Ответ детей: применяют к большим текстам. В чем состоит преимущество стилевого форматирования от прямого? Ответ детей: экономит время, обеспечивает единообразие в оформлении и так далее. Какая существует ориентация листа бумаги? Ответ детей: книжная, альбомная. Какие вы молодцы! Видно, что учили.

Сегодня на уроке мы начинаем новую тему, а вот какую вы мне скажите сами, и в этом вам помогут некоторые изображения, которые вы видите на слайде. И вот каков будет мой наводящий вопрос, какую информацию человек воспринимает лучше? То есть какую информацию нам воспринимать легче? Которая будет что содержать? Ответ: которая содержит списки, диаграммы, картинки. А как называется такая информация, которая содержит списки, картинки, диаграммы, таблицы? Название такой информации получили от слова «глаза». Ответ детей: визуализированная информация. Значит, тема урока какова? Ответ детей: «Визуализация информации в текстовых документах».

Совершенно верно, открываем свои тетради, записываем сегодняшнее число, классная работа и тему урока «Визуализация информации в текстовых документах» (Т, Д).

Отвечают на вопросы по домашнему заданию.

Формулируют тему урока.

Принцип деятельности. УУД: регулятивные (проблемная подача учебного материала).

3. Изложение нового материала.

Известно, что текстовая информация воспринимается человеком лучше, если она визуализирована – организована в виде списков, таблиц, диаграмм, снабжена иллюстрациями (фотографиями, рисунками, схемами). Современные текстовые процессоры предоставляют пользователям широкие возможности визуализации информации в создаваемых документах. Рассмотрим с вами сначала списки . Запишите себе подзаголовок – «Списки» (Т, Д).

Всевозможные перечни в документах оформляются с помощью списков. При этом все пункты перечня рассматриваются как абзацы, оформленные по единому образцу. По способу оформления различают нумерованные и маркированные списки.

Элементы нумерованного списка обозначаются с помощью последовательных чисел, для записи которых могут использоваться арабские и римские цифры. Элементы списка могут быть пронумерованы и буквами – русскими или латинскими. Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов. Особенно часто такие списки используют для описания последовательности действий. Нумерованные списки вы регулярно создаете, заполняя в дневнике расписание уроков на каждый день.

При создании новых, удалении или перемещении существующих элементов нумерованного списка в текстовом процессоре вся нумерация списка меняется автоматически.

Рис.1. Пример нумерованного списка

Элементы маркированного списка обозначаются с помощью знаков-маркеров. Пользователь может выбрать в качестве маркера любой символ компьютерного алфавита, и даже небольшое графическое изображение. С помощью маркированного списка оформлены ключевые слова в начале каждого параграфа вашего учебника.


Рис.2. Пример маркированного списка

Маркированный список используют в тех случаях, когда порядок следования элементов в нем не важен. Например, в виде маркированного списка можно оформить перечень предметов, изучаемых вами в 7 классе.

По структуре различают одноуровневые и многоуровневые списки. Списки в рассмотренных выше примерах имеют одноуровневую структуру. Список, элемент которого сам является списком, называется многоуровневым. Так оглавление вашего учебника информатики является многоуровневым списком. Списки создаются в текстовом процессоре с помощью команды строки меню или кнопок панели форматирования.

Записываем следующий подзаголовок – «Таблицы» (Т, Д).

Для описания ряда объектов, обладающими одинаковыми наборами свойств, наиболее часто используются таблицы, состоящие из столбцов (граф) и строк. Вам хорошо известно табличное представление расписания уроков, в табличной форме представляются расписание движения автобусов, самолетов, поездов и так далее.

Представленная в таблице информация наглядна, компактна и легко обозрима. Таблица может содержать не только символы и текст, но и какие-то графические изображения. Пример на доске.

Создать таблицу можно с помощью соответствующего пункта меню или кнопки на панели инструментов, указав необходимое число столбцов и строк; в некоторых текстовых процессорах таблицу можно «нарисовать». Созданную таблицу можно редактировать, изменяя ширину столбцов и высоту строк, добавляя и удаляя столбцы и строки, объединяя и разбивая ячейки. Вводить информацию в таблицу можно так: с помощью клавиатуры, копировать и вставлять заранее подготовленные фрагменты.

Внешний вид таблицы можно оформить самостоятельно, подобрав тип, ширину и цвет границ ячеек, цвет фона ячеек, отформатировав содержимое ячеек.

Как я уже говорила, таблица может содержать не только текст, но и графическое изображение. Готовые графические изображения можно редактировать, изменяя их размеры, основные цвета, яркость и контрастность, поворачивая и так далее.

Во многих текстовых процессорах имеется возможность непосредственного создания графических изображений из наборов автофигур. Так же есть возможность создания красочных надписей с использованием встроенных текстовых эффектов. Визуализировать числовую информацию, содержащуюся в таблице, можно с помощью диаграмм, средства, создания которых также включены в текстовые процессоры.

Эта вся теория, которая необходима вам для визуализации информации. Ваши вопросы, что вам непонятно? Может что-то еще нужно повторить? Учитель отвечает на вопросы детей.

Теперь я предлагаю вам выполнить практическую работу, цель которой – научиться строить таблицы, применять к тексту нумерованные и маркированные списки.

Слушают внимательно учителя и конспектируют важные моменты.

Обсуждают таблицу.

Познавательные:

извлечение необходимой информации из сказанного учителем.

Регулятивные:

планирование своей деятельности для решения поставленной задачи, контроль полученного результата, коррекция полученного результата

Личностные:

развитие внимания, зрительной и слуховой памяти, возможность самостоятельно осуществлять деятельность обучения.

4. Первичное закрепление (практическая работа).

Закрепить полученный материал практической работой.

Рассаживаемся за компьютеры, и я вам сейчас раздам листочки с практической работой. Если возникнут вопросы, спрашивайте.

Приложение 1 (практическая работа).

Выполняют практическую работу на компьютерах.

Познавательные:

выбор наиболее эффективных способов выполнения практической работы

Личностные:

формирование умений внедрять таблицы, списки в текст.

5. Итог урока,

Подведение итогов урока,

Ребята, давайте с вами подведем итог нашего урока. Что для вас было новым на уроке? Возникали ли у вас трудности при выполнении практической работы? Достаточно ли теоретического материала вы услышали на уроке? Каким было вашего настроение до урока и каким стало после окончания урока?

Открываем дневники и записываем домашнее задание – стр.168-172 учить параграф 4.4. Все, все свободны! До свидания!

Подводят итог урока, отвечают на вопросы.

Записывают домашнее задание.

Познавательные:

контроль и оценка процесса и результатов деятельности.

Личностные:

умение подвести итог, оценить свою работу.

информация о домашнем задании.

информация о домашнем задании.

ВИЗУАЛИЗАЦИЯ ИНФОРМАЦИИ В ТЕКСТОВЫХ ДОКУМЕНТАХ

Визуализация – представление информации в наглядном виде. Текстовую информацию представляют в виде списков, таблиц, диаграмм, снабжают иллюстрациями (фотографиями, схемами, рисунками).

Списки

Всевозможные перечни в документах оформляются с помощью списков . Пункты перечня рассматриваются как абзацы, оформленные по единому образцу. По способу оформления списки могут быть нумерованные и маркированные.

Элементы нумерованного списка обозначаются с помощью чисел или букв (латинских или русских).

Элементы маркированного списка обозначаются с помощью значков-маркеров .

По структуре списки различают: одноуровневые и многоуровневые. Все примеры, рассмотренные, ранее являются одноуровневыми списками

Список, элемент которого сам является списком, называется многоуровневым .

Таблицы

Для описания ряда объектов, обладающих одинаковыми наборами свойств, наиболее часто используются таблицы , состоящие из столбцов (граф) и строк.

Представленная в таблице информация наглядна, компактна и легкообазрима.

Правильно оформленная таблица имеет следующую структуру:

В ячейках таблиц могут быть размещены тексты, числа, изображения.

Пример таблицы:

Создать таблицу можно с помощью соответствующего пункта меню или кнопки на панели инструментов, указав необходимое число столбцов и строк; в некоторых текстовых процессорах таблицу можно нарисовать. Созданную таблицу можно редактировать, изменяя ширину столбцов и высоту строк, объединяя и разбивая ячейки. Вводить информацию в ячейки таблицы можно так: с помощью клавиатуры, копировать и вставлять заранее подготовленные фрагменты. В текстовых процессорах есть возможность автоматически преобразовывать имеющийся текст в таблицу.

Внешний вид таблицы можно оформить самостоятельно, подобрав тип, ширину и цвет границ ячеек, цвет фона ячеек, отформатировав содержимое ячеек. Кроме того отформатировать таблицу можно автоматически.

Графические изображения

Современные текстовые процессоры позволяют включать в документы различные графические изображения.

Текстовые процессоры позволяют строить разные виды графических схем обеспечивающих визуализацию текстовой информации.

Виды графических схем в текстовом процессоре Microsoft Word.